論文配圖一鍵封神!北大谷歌開源PaperBanana,5個Agent全包了

論文配圖一鍵封神!北大谷歌開源PaperBanana,5個Agent全包了

新智元報道

編輯論文:傾傾

【新智元導讀】科研人的深夜噩夢,終於有人來終結了!剛剛,北大聯合Google CloudAI釋出PaperBanana,直接把論文配圖變成了全自動流水線論文。5個智慧體組團幹活,生成的架構圖對標NeurIPS頂會標準。以後寫論文,你只管敲字,畫圖這事兒,AI包了。

你有沒有過這樣的經歷:論文寫好了,但架構圖卻讓你焦頭爛額論文

不是配色太土,就是線歪了,要麼就是模組大小不協調,簡直比寫論文還要難論文

別擔心,有這樣焦慮的人不止你一個!資料顯示,科研人員有45%的時間被浪費在了這種低階的繪圖調整上論文

但就在今天,科研狗的繪圖之神——PaperBanana出現了論文

論文配圖一鍵封神!北大谷歌開源PaperBanana,5個Agent全包了

5個智慧體

展開全文

治好了AI的「視覺精神病」

無論是Midjourney還是DALL-E3,在畫科研圖表時都像個人工智障論文

讓GPT-Image-1.5直接讀取論文畫圖,它的綜合得分只有11.5分(滿分100)論文

在「忠實度」這一項,甚至只有4.5分論文

論文配圖一鍵封神!北大谷歌開源PaperBanana,5個Agent全包了

它畫出來的圖,看起來像那麼回事,但該連的線連不上,該有的模組給你瞎編論文

PaperBanana敏銳地發現,既然單個模型會產生幻覺,那我一次性呼叫5個Agent協同工作,總不能5個一起產生幻覺吧論文

論文配圖一鍵封神!北大谷歌開源PaperBanana,5個Agent全包了

1. Retriever(檢索):RAG的抄作業美學

拿到任務後,Retriever直接發動RAG技能,去頂會資料庫裡打撈10張最相關的參考圖論文

2. Planner(策劃師)論文:把人話翻譯成「藍圖」

這是系統的「認知核心」論文

它負責死磕論文裡最晦澀的Methodology,把那些文字邏輯硬拆解成視覺藍圖論文

搞清楚誰連誰,誰包含誰,絕不讓邏輯拓撲亂成一鍋粥論文

3. Stylist(風格智慧體)論文:拿捏NeurIPS的「高階感」

為了解決「圖Low」的問題,Stylist會生成一份名為Aesthetic Guideline的最高優先順序指令論文

該指令會強制把Planner的指令修正為符合頂會標準論文,想用Excel預設藍?門都沒有!

4. Visualizer&Critic(閉環核心):3輪迴圈論文,甲方煉獄

PaperBanana能夠拿到60.2分的關鍵論文,秘密,全在這倆貨的互撕上:

Visualizer:呼叫Nano Banana Pro,渲染圖片論文

Critic:這是整個架構的靈魂——專業找茬論文

Visualizer:呼叫Nano Banana Pro,渲染圖片論文

Critic:這是整個架構的靈魂——專業找茬論文

Critic會拿著原論文跟圖比對,一旦發現連線錯了、模組少了,直接生成修正指令,打回去重畫論文。這個過程會暴力迴圈3次。

論文配圖一鍵封神!北大谷歌開源PaperBanana,5個Agent全包了

PaperBanana官方論文中的失敗案例

資料顯示,正是這3輪迭代,將圖表的忠實度從不可用的4.5提升到了45.8,在這一指標上直接逼近人類水平(50.0)論文

審美降維打擊

AI總結的《NeurIPS 2025審美黑話》

在PaperBanana眼裡,美感是一堆冷冰冰的引數論文

Stylist Agent遍歷了NeurIPS 2025所有論文論文,搞了一次逆向工程,把審稿人潛意識裡的視覺偏好扒了個底掉:

論文配圖一鍵封神!北大谷歌開源PaperBanana,5個Agent全包了

人類手繪原圖與StyleEnhanced(AI風格化後)的對比

AI發現,2025年的頂流審美是科技莫蘭迪色論文

高飽和度的紅藍撞色(如Excel預設色),直接被定義為「業餘」論文

所以,正確方法是:背景要用Cream()或PaleBlue();功能模組採用中等飽和度配色;高亮色僅限於報錯或最終結果論文

論文配圖一鍵封神!北大谷歌開源PaperBanana,5個Agent全包了

審美增強案例論文。上邊是原始的粗糙框圖,下邊是AI根據Guidelines最佳化後的成品。

還有90%的人都會忽視的細節:混排(Font Mixing)論文

系統標籤必須用無襯線體,顯得現代、乾淨;凡是涉及數學公式的變數,必須強制切換為LaTeX風格襯線斜體論文

這種字型的混排,是區分「草圖」和「出版級插圖」的關鍵訊號論文

PaperBanana甚至懂「圈層文化」

如果你寫的是Agent論文論文,Stylist會主動呼叫可愛風格的2D機器人圖示或對話氣泡,強調「互動感」;

如果是CV/3D論文論文,它會拒絕卡通元素,強調視錐、點雲和熱力圖,配色偏向RGB通道邏輯;

要是純理論論文,則追求極致極簡論文。黑白灰為主,只保留一個高亮色給拓撲結構。

統計圖的「精準謀殺」

告別Matplotlib難度

為什麼之前的AI總是畫不好統計圖論文

因為,擴散模型是右腦思維的藝術家論文。它懂構圖,但它真的不識數。

如下圖所示,當讓模型直接「畫」一個雷達圖時,它生成了極具設計感的陰影和線條論文。但仔細一看——資料點0.4被畫到了0.8的刻度線上;甚至還憑空捏造了幾個重複的圖例標籤。

論文配圖一鍵封神!北大谷歌開源PaperBanana,5個Agent全包了

為了解決這個問題,PaperBanana做了一個天才般的架構切換論文

Visualizer不再生成畫素論文,而是直接生成Python Matplotlib程式碼

Critic也不再看構圖,而是執行程式碼,檢查報錯,比對資料論文

這個邏輯繞過了影像生成的隨機性,直接利用LLM強大的Coding能力論文

以前為了調整一個座標軸的傾斜角度,得去查半小時;現在,PaperBanana在後臺幾秒鐘內自己寫程式碼、自己Debug、自己執行出圖論文

對比資料非常直觀論文

純影像生成模式:好看,但瞎編論文

程式碼生成模式:精準,且完全可復現論文

純影像生成模式:好看,但瞎編論文

程式碼生成模式:精準,且完全可復現論文

PaperBanana官方基準對比:Code模式(綠色)在忠實度和簡潔度碾壓純影像生成(IMG論文,紅色),逼近人類水平

邏輯圖走藝術路線,資料圖走工程路線論文。這才是AI科學家該有的嚴謹。

全自動發表的最後一片拼圖

在此之前,Auto Figure等競品更多是將內容符號化,或者僅僅是簡單的圖表堆砌論文

PaperBanana是第一個真正引入「設計思維」的智慧體系統論文

當AI開始理解「如何用佈局引導讀者的視線」,從一個工具,變成一個擁有表達欲的共創者論文

在PaperBanana Bench的測試中,AI在簡潔性上比現有基線模型提升了37.2%論文

雖然論文的委婉地說是為了「民主化」高質量繪圖工具,但我們都懂:當技術的門檻降到0,原來的溢價就消失了論文

北大與Google的野心很大論文

他們不僅發了工具,還開源了PaperBanana Bench:292個涵蓋各領域的「地獄級」測試用例,擺明了是想做行業裁判論文

雖然目前的版本生成的還是點陣圖,但作者也說了,下一步就是開發能操作Adobe Illustrator的GUI Agent論文

等那個版本出來,設計師可能真的要關掉Photoshop去送外賣了論文

工具進化的終極意義,從來不是為了讓我們變懶,而是為了讓大腦回歸純粹論文

未來能活得滋潤的科研人論文,只有兩種:一種是極其硬核、能寫出AI無論如何也理解不了的頂級演算法的大神;

另一種,是懂得指揮千軍萬馬的AI Agent,把自己的思想用最完美的視覺語言鋪陳在審稿人面前的「超級個體」論文

別讓你的思想,死在畫不出的圖裡論文

參考資料論文

秒追ASI

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://yxd-1688.com/tags-%E8%A7%92%E8%89%B2.html

🌐 /