論文配圖一鍵封神！北大谷歌開源PaperBanana，5個Agent全包了

新智元報道

編輯論文：傾傾

【新智元導讀】科研人的深夜噩夢，終於有人來終結了！剛剛，北大聯合Google CloudAI釋出PaperBanana，直接把論文配圖變成了全自動流水線論文。5個智慧體組團幹活，生成的架構圖對標NeurIPS頂會標準。以後寫論文，你只管敲字，畫圖這事兒，AI包了。

你有沒有過這樣的經歷：論文寫好了，但架構圖卻讓你焦頭爛額論文。

不是配色太土，就是線歪了，要麼就是模組大小不協調，簡直比寫論文還要難論文。

別擔心，有這樣焦慮的人不止你一個！資料顯示，科研人員有45%的時間被浪費在了這種低階的繪圖調整上論文。

但就在今天，科研狗的繪圖之神——PaperBanana出現了論文。

5個智慧體

展開全文

治好了AI的「視覺精神病」

無論是Midjourney還是DALL-E3，在畫科研圖表時都像個人工智障論文。

讓GPT-Image-1.5直接讀取論文畫圖，它的綜合得分只有11.5分（滿分100）論文。

在「忠實度」這一項，甚至只有4.5分論文。

它畫出來的圖，看起來像那麼回事，但該連的線連不上，該有的模組給你瞎編論文。

PaperBanana敏銳地發現，既然單個模型會產生幻覺，那我一次性呼叫5個Agent協同工作，總不能5個一起產生幻覺吧論文。

1. Retriever（檢索）：RAG的抄作業美學

拿到任務後，Retriever直接發動RAG技能，去頂會資料庫裡打撈10張最相關的參考圖論文。

2. Planner（策劃師）論文：把人話翻譯成「藍圖」

這是系統的「認知核心」論文。

它負責死磕論文裡最晦澀的Methodology，把那些文字邏輯硬拆解成視覺藍圖論文。

搞清楚誰連誰，誰包含誰，絕不讓邏輯拓撲亂成一鍋粥論文。

3. Stylist（風格智慧體）論文：拿捏NeurIPS的「高階感」

為了解決「圖Low」的問題，Stylist會生成一份名為Aesthetic Guideline的最高優先順序指令論文。

該指令會強制把Planner的指令修正為符合頂會標準論文，想用Excel預設藍？門都沒有！

4. Visualizer&Critic（閉環核心）：3輪迴圈論文，甲方煉獄

PaperBanana能夠拿到60.2分的關鍵論文，秘密，全在這倆貨的互撕上：

Visualizer：呼叫Nano Banana Pro，渲染圖片論文。

Critic：這是整個架構的靈魂——專業找茬論文。

Visualizer：呼叫Nano Banana Pro，渲染圖片論文。

Critic：這是整個架構的靈魂——專業找茬論文。

Critic會拿著原論文跟圖比對，一旦發現連線錯了、模組少了，直接生成修正指令，打回去重畫論文。這個過程會暴力迴圈3次。

PaperBanana官方論文中的失敗案例

資料顯示，正是這3輪迭代，將圖表的忠實度從不可用的4.5提升到了45.8，在這一指標上直接逼近人類水平（50.0）論文。

審美降維打擊

AI總結的《NeurIPS 2025審美黑話》

在PaperBanana眼裡，美感是一堆冷冰冰的引數論文。

Stylist Agent遍歷了NeurIPS 2025所有論文論文，搞了一次逆向工程，把審稿人潛意識裡的視覺偏好扒了個底掉：

人類手繪原圖與StyleEnhanced（AI風格化後）的對比

AI發現，2025年的頂流審美是科技莫蘭迪色論文。

高飽和度的紅藍撞色（如Excel預設色），直接被定義為「業餘」論文。

所以，正確方法是：背景要用Cream()或PaleBlue()；功能模組採用中等飽和度配色；高亮色僅限於報錯或最終結果論文。

審美增強案例論文。上邊是原始的粗糙框圖，下邊是AI根據Guidelines最佳化後的成品。

還有90%的人都會忽視的細節：混排（Font Mixing）論文。

系統標籤必須用無襯線體，顯得現代、乾淨；凡是涉及數學公式的變數，必須強制切換為LaTeX風格襯線斜體論文。

這種字型的混排，是區分「草圖」和「出版級插圖」的關鍵訊號論文。

PaperBanana甚至懂「圈層文化」

如果你寫的是Agent論文論文，Stylist會主動呼叫可愛風格的2D機器人圖示或對話氣泡，強調「互動感」；

如果是CV/3D論文論文，它會拒絕卡通元素，強調視錐、點雲和熱力圖，配色偏向RGB通道邏輯；

要是純理論論文，則追求極致極簡論文。黑白灰為主，只保留一個高亮色給拓撲結構。

統計圖的「精準謀殺」

告別Matplotlib難度

為什麼之前的AI總是畫不好統計圖論文？

因為，擴散模型是右腦思維的藝術家論文。它懂構圖，但它真的不識數。

如下圖所示，當讓模型直接「畫」一個雷達圖時，它生成了極具設計感的陰影和線條論文。但仔細一看——資料點0.4被畫到了0.8的刻度線上；甚至還憑空捏造了幾個重複的圖例標籤。

為了解決這個問題，PaperBanana做了一個天才般的架構切換論文。

Visualizer不再生成畫素論文，而是直接生成Python Matplotlib程式碼

Critic也不再看構圖，而是執行程式碼，檢查報錯，比對資料論文。

這個邏輯繞過了影像生成的隨機性，直接利用LLM強大的Coding能力論文。

以前為了調整一個座標軸的傾斜角度，得去查半小時；現在，PaperBanana在後臺幾秒鐘內自己寫程式碼、自己Debug、自己執行出圖論文。

對比資料非常直觀論文：

純影像生成模式：好看，但瞎編論文。

程式碼生成模式：精準，且完全可復現論文。

純影像生成模式：好看，但瞎編論文。

程式碼生成模式：精準，且完全可復現論文。

PaperBanana官方基準對比：Code模式（綠色）在忠實度和簡潔度碾壓純影像生成（IMG論文，紅色），逼近人類水平

邏輯圖走藝術路線，資料圖走工程路線論文。這才是AI科學家該有的嚴謹。

全自動發表的最後一片拼圖

在此之前，Auto Figure等競品更多是將內容符號化，或者僅僅是簡單的圖表堆砌論文。

PaperBanana是第一個真正引入「設計思維」的智慧體系統論文。

當AI開始理解「如何用佈局引導讀者的視線」，從一個工具，變成一個擁有表達欲的共創者論文。

在PaperBanana Bench的測試中，AI在簡潔性上比現有基線模型提升了37.2%論文。

雖然論文的委婉地說是為了「民主化」高質量繪圖工具，但我們都懂：當技術的門檻降到0，原來的溢價就消失了論文。

北大與Google的野心很大論文。

他們不僅發了工具，還開源了PaperBanana Bench：292個涵蓋各領域的「地獄級」測試用例，擺明了是想做行業裁判論文。

雖然目前的版本生成的還是點陣圖，但作者也說了，下一步就是開發能操作Adobe Illustrator的GUI Agent論文。

等那個版本出來，設計師可能真的要關掉Photoshop去送外賣了論文。

工具進化的終極意義，從來不是為了讓我們變懶，而是為了讓大腦回歸純粹論文。

未來能活得滋潤的科研人論文，只有兩種：一種是極其硬核、能寫出AI無論如何也理解不了的頂級演算法的大神；

另一種，是懂得指揮千軍萬馬的AI Agent，把自己的思想用最完美的視覺語言鋪陳在審稿人面前的「超級個體」論文。

別讓你的思想，死在畫不出的圖裡論文。

參考資料論文：

秒追ASI

論文配圖一鍵封神！北大谷歌開源PaperBanana，5個Agent全包了

上海偉傑國際貨物運輸代理有限公司

熱門標籤

相關詞彙