新智元報道
編輯論文:傾傾
【新智元導讀】科研人的深夜噩夢,終於有人來終結了!剛剛,北大聯合Google CloudAI釋出PaperBanana,直接把論文配圖變成了全自動流水線論文。5個智慧體組團幹活,生成的架構圖對標NeurIPS頂會標準。以後寫論文,你只管敲字,畫圖這事兒,AI包了。
你有沒有過這樣的經歷:論文寫好了,但架構圖卻讓你焦頭爛額論文。
不是配色太土,就是線歪了,要麼就是模組大小不協調,簡直比寫論文還要難論文。
別擔心,有這樣焦慮的人不止你一個!資料顯示,科研人員有45%的時間被浪費在了這種低階的繪圖調整上論文。
但就在今天,科研狗的繪圖之神——PaperBanana出現了論文。
5個智慧體
展開全文
治好了AI的「視覺精神病」
無論是Midjourney還是DALL-E3,在畫科研圖表時都像個人工智障論文。
讓GPT-Image-1.5直接讀取論文畫圖,它的綜合得分只有11.5分(滿分100)論文。
在「忠實度」這一項,甚至只有4.5分論文。
它畫出來的圖,看起來像那麼回事,但該連的線連不上,該有的模組給你瞎編論文。
PaperBanana敏銳地發現,既然單個模型會產生幻覺,那我一次性呼叫5個Agent協同工作,總不能5個一起產生幻覺吧論文。
1. Retriever(檢索):RAG的抄作業美學
拿到任務後,Retriever直接發動RAG技能,去頂會資料庫裡打撈10張最相關的參考圖論文。
2. Planner(策劃師)論文:把人話翻譯成「藍圖」
這是系統的「認知核心」論文。
它負責死磕論文裡最晦澀的Methodology,把那些文字邏輯硬拆解成視覺藍圖論文。
搞清楚誰連誰,誰包含誰,絕不讓邏輯拓撲亂成一鍋粥論文。
3. Stylist(風格智慧體)論文:拿捏NeurIPS的「高階感」
為了解決「圖Low」的問題,Stylist會生成一份名為Aesthetic Guideline的最高優先順序指令論文。
該指令會強制把Planner的指令修正為符合頂會標準論文,想用Excel預設藍?門都沒有!
4. Visualizer&Critic(閉環核心):3輪迴圈論文,甲方煉獄
PaperBanana能夠拿到60.2分的關鍵論文,秘密,全在這倆貨的互撕上:
Visualizer:呼叫Nano Banana Pro,渲染圖片論文。
Critic:這是整個架構的靈魂——專業找茬論文。
Visualizer:呼叫Nano Banana Pro,渲染圖片論文。
Critic:這是整個架構的靈魂——專業找茬論文。
Critic會拿著原論文跟圖比對,一旦發現連線錯了、模組少了,直接生成修正指令,打回去重畫論文。這個過程會暴力迴圈3次。
PaperBanana官方論文中的失敗案例
資料顯示,正是這3輪迭代,將圖表的忠實度從不可用的4.5提升到了45.8,在這一指標上直接逼近人類水平(50.0)論文。
審美降維打擊
AI總結的《NeurIPS 2025審美黑話》
在PaperBanana眼裡,美感是一堆冷冰冰的引數論文。
Stylist Agent遍歷了NeurIPS 2025所有論文論文,搞了一次逆向工程,把審稿人潛意識裡的視覺偏好扒了個底掉:
人類手繪原圖與StyleEnhanced(AI風格化後)的對比
AI發現,2025年的頂流審美是科技莫蘭迪色論文。
高飽和度的紅藍撞色(如Excel預設色),直接被定義為「業餘」論文。
所以,正確方法是:背景要用Cream()或PaleBlue();功能模組採用中等飽和度配色;高亮色僅限於報錯或最終結果論文。
審美增強案例論文。上邊是原始的粗糙框圖,下邊是AI根據Guidelines最佳化後的成品。
還有90%的人都會忽視的細節:混排(Font Mixing)論文。
系統標籤必須用無襯線體,顯得現代、乾淨;凡是涉及數學公式的變數,必須強制切換為LaTeX風格襯線斜體論文。
這種字型的混排,是區分「草圖」和「出版級插圖」的關鍵訊號論文。
PaperBanana甚至懂「圈層文化」
如果你寫的是Agent論文論文,Stylist會主動呼叫可愛風格的2D機器人圖示或對話氣泡,強調「互動感」;
如果是CV/3D論文論文,它會拒絕卡通元素,強調視錐、點雲和熱力圖,配色偏向RGB通道邏輯;
要是純理論論文,則追求極致極簡論文。黑白灰為主,只保留一個高亮色給拓撲結構。
統計圖的「精準謀殺」
告別Matplotlib難度
為什麼之前的AI總是畫不好統計圖論文?
因為,擴散模型是右腦思維的藝術家論文。它懂構圖,但它真的不識數。
如下圖所示,當讓模型直接「畫」一個雷達圖時,它生成了極具設計感的陰影和線條論文。但仔細一看——資料點0.4被畫到了0.8的刻度線上;甚至還憑空捏造了幾個重複的圖例標籤。
為了解決這個問題,PaperBanana做了一個天才般的架構切換論文。
Visualizer不再生成畫素論文,而是直接生成Python Matplotlib程式碼
Critic也不再看構圖,而是執行程式碼,檢查報錯,比對資料論文。
這個邏輯繞過了影像生成的隨機性,直接利用LLM強大的Coding能力論文。
以前為了調整一個座標軸的傾斜角度,得去查半小時;現在,PaperBanana在後臺幾秒鐘內自己寫程式碼、自己Debug、自己執行出圖論文。
對比資料非常直觀論文:
純影像生成模式:好看,但瞎編論文。
程式碼生成模式:精準,且完全可復現論文。
純影像生成模式:好看,但瞎編論文。
程式碼生成模式:精準,且完全可復現論文。
PaperBanana官方基準對比:Code模式(綠色)在忠實度和簡潔度碾壓純影像生成(IMG論文,紅色),逼近人類水平
邏輯圖走藝術路線,資料圖走工程路線論文。這才是AI科學家該有的嚴謹。
全自動發表的最後一片拼圖
在此之前,Auto Figure等競品更多是將內容符號化,或者僅僅是簡單的圖表堆砌論文。
PaperBanana是第一個真正引入「設計思維」的智慧體系統論文。
當AI開始理解「如何用佈局引導讀者的視線」,從一個工具,變成一個擁有表達欲的共創者論文。
在PaperBanana Bench的測試中,AI在簡潔性上比現有基線模型提升了37.2%論文。
雖然論文的委婉地說是為了「民主化」高質量繪圖工具,但我們都懂:當技術的門檻降到0,原來的溢價就消失了論文。
北大與Google的野心很大論文。
他們不僅發了工具,還開源了PaperBanana Bench:292個涵蓋各領域的「地獄級」測試用例,擺明了是想做行業裁判論文。
雖然目前的版本生成的還是點陣圖,但作者也說了,下一步就是開發能操作Adobe Illustrator的GUI Agent論文。
等那個版本出來,設計師可能真的要關掉Photoshop去送外賣了論文。
工具進化的終極意義,從來不是為了讓我們變懶,而是為了讓大腦回歸純粹論文。
未來能活得滋潤的科研人論文,只有兩種:一種是極其硬核、能寫出AI無論如何也理解不了的頂級演算法的大神;
另一種,是懂得指揮千軍萬馬的AI Agent,把自己的思想用最完美的視覺語言鋪陳在審稿人面前的「超級個體」論文。
別讓你的思想,死在畫不出的圖裡論文。
參考資料論文:
秒追ASI