|
|
效果好到刷屏的Nano Banana,学术特供版热乎出炉! z5 M0 \" @& F- j8 }
名字就是如此直观——PaperBanana,给你每天都在头痛的Paper用上Banana。(试图押韵skr)
2 v8 |0 p( U K而且这一次是由谷歌北大强强联手打造。
9 `2 _, n1 x" I) j
; m4 w* Q5 F3 C9 @& R知道你想马上看效果,别急,三个官方案例这就给大家搬上桌。
8 ~" R6 c6 A. u2 k4 h在相同输入下,人类绘制、原版Nano Banana与PaperBanana生成的论文插图对比如下:% T+ f2 c: w" @ i
综合评估显示,PaperBanana在美观性、简洁性与逻辑清晰度上均全面优于原版。$ J) [% N* |: z3 X' N
( g7 c1 S3 O* l- l- J+ o而且它还能直接优化人工绘制的插图,瞅瞅右边,是不是高级感一下就上去了。; p4 L3 U# B5 J6 @
0 v- J$ {: f: S/ n此外,由于PaperBanana还提供代码出图功能 (即利用Gemini-3-Pro自动生成并执行Python可视化代码出图),所以它还能用来生成需要数值100%精准的各种图表。
& N, d. f9 m. x6 B4 c, O8 Q
6 l4 `6 g4 |) c; [好好好,既能拿捏高级感,又不忘精准度,应该没有学术人不爱吧~
) z8 ~! T; ?6 T; f% T5 X4 I; |. Y$ f; k; y; x/ {
论文作者表示,PaperBanana为全自动生成可用于出版的插图铺平了道路。+ M1 A) K' I) l/ q" s4 Y8 ?
我们希望这个框架能成为连接复杂科学概念与高效视觉叙事的桥梁,赋能每一位研究者,用专业级的视觉语言清晰呈现其发现。
\& E- G( ^/ F& h 而在看到其效果之后,一众网友也纷纷感叹“学术插图”这个老大难总算是要被攻克了。
- |% v) C+ {) `( }想想以前的日子,真真是要落泪了~7 ?4 ?9 g9 U- }% O( w( s/ [- `6 d- f
研究人员花费4个小时在Figma中绘制一张图,简直令人难以置信。0 h i" m" ?* H/ k; w: G8 j
6 E, U, {% \$ x' w9 L
那么,学术版PaperBanana是如何炼造的呢?$ I/ K7 e0 ^8 N. X
一个不够,那就5个!8 |% W9 b; @" H1 j2 w8 G7 e
8 }( n" X& c. F. p6 q- d) ^1 q5 j
用一个模型生图怎么够,现在都是多智能体齐上阵了。8 S5 ~ y2 L' |0 l8 g0 K
没错,PaperBanana背后就是5个分工明确的智能体在起作用。; J. W9 y3 r3 V! f, u5 ]! q
- k/ Z) i' J5 i0 K, M! h- Retriever Agent(检索智能体):从顶会论文库中,找到与你要画的图领域、结构最相似的参考案例。
/ t% L/ G9 j. C - Planner Agent(规划智能体):把论文文字描述,转化为包含所有模块、逻辑的详细绘图说明书。
2 b+ t% G6 Q+ o. u( A - Stylist Agent(风格智能体):总结学术审美规范,给说明书加上配色、排版等“美颜”标准。' i- @+ X) o1 k- H
- Visualizer Agent(可视化智能体):根据说明书,直接画图或写代码出图,产出初稿。. e) @) d2 D- g/ K, b; i* [
- Critic Agent(批判智能体):检查图的对错与美观度,提出修改意见,循环迭代3轮优化。: Q9 {$ j) k& q, S3 {4 D. D
下面这张图清晰展示了它们的工作流程:. c I" k' d( z @" d. `1 \
划重点,连这张图也是PaperBanana自己生成的。
+ w* N4 H/ Z9 P
7 G, [' w' o; J+ m论文作者表示,这一过程参考了人类制作论文插图的流程。 S% y3 Z5 S0 V0 ~: s1 p; m
以制作一个模型架构图为例,通常研究人员会先去看看顶会里类似工作的图是怎么画的,找找灵感和规范。, \0 b' H$ j/ R5 o. W: f0 _1 c
这一步就对应了检索智能体的工作。
+ w0 |0 e! {/ o) o5 I4 r% q( O然后就需要根据参考来规划自己的图该怎么画,“我的方法有几个关键模块?”、“数据流和逻辑顺序是怎样的?”,在想清所有关键问题后,脑子里大概就有一幅架构蓝图了。% D1 |6 }9 s/ k' i# [
而到这一步还不是真正动笔的时候,因为还需要结合自己的图以及之前看过的“顶会审美”标准,来给蓝图加点设计感。0 {6 K1 j: W: [; `/ S
有了这两样东西(蓝图+审美),现在就可以真正出图了。. q6 r7 Z2 n+ g I
并且出完之后,研究人员往往还需要检查一番,以确保出图正确无误。
# C: k j+ `0 {; _% e0 S6 `+ K% X' P2 X% r
怎么样?是不是一环扣一环、且全都一一对应上了。
0 o4 T% y5 x; Q/ D& g- l1 C而在了解完PaperBanana的工作方式后,接下来的问题在于:+ o* Y5 K0 a o; g. ?7 X
怎么评估PaperBanana的生图效果?& z z* N+ b& k& n0 e3 z4 l
实验方法及结果
; g W$ Y# _" i" Z, a- F
( ^" n: j$ M" y对此,团队还专门构建了一个PaperBananaBench。该基准内容源自NeurIPS 2025——
; W1 s9 Q, T+ _) d, ~6 ]他们从5275篇论文中随机采样2000篇,经过滤、人工校验后,得到584个有效样本,然后将其均分为292个测试样本和292个参考样本。
% X4 f( L9 K% j1 y4 x8 r( v* l这292个参考样本,每一个都提取了完整的(S, C, I)三元组:
! V2 V4 A9 c0 U4 V5 R3 w6 b' d
4 S# `3 N' U- d4 V9 b- S(源上下文):描述方法的文本,如论文方法论章节;
- K( ^9 e) e" n% ]2 R6 | - C(传达意图):图的标题/说明,如“我们的框架概述”;) | X: D. d$ {9 q; c" V- U
- I(参考图像):论文中实际使用的、高质量的对应图表。
" }9 \" o4 }0 t 参考样本集构成了一个高质量的“学术插图数据库”,主要供检索智能体进行查询和匹配。
7 E; x$ h: c/ l# S8 a而与之对应的292个测试样本,在评估时则仅提供S、C作为输入。其对应的I作为隐藏的标准答案,不参与生成过程,仅用于最终的质量比对与评分。9 X7 | Q6 Q8 j
准备到这里,接下来就是具体生成和评估了。' N& [$ t# u) F+ D5 G' O: d& H
裁判方面,他们采用了“VLM-as-a-Judge”(大模型当裁判)的评估范式——
" O0 p$ a* S$ S' o# W, h4 N3 G让强大的视觉语言模型(如Gemini-3-Pro)作为评委,将PaperBanana生成的图与测试集中隐藏的标准答案I进行逐项对比。7 ^0 Y0 J. E, |' p
对比的维度主要有四个:忠实性、简洁性、可读性、美观性。( G$ U- q" N- v5 p* X, J! s
若PaperBanana表现优于标准图得100分,劣于得0分,持平得50分,最终计算总分。; O0 G4 @7 d) E; B T9 C0 v, k& N
而实验结果表明,PaperBanana在所有维度上全面超越了传统的单模型直接生成(Vanilla)等基线方法。8 l) I6 u1 }1 {1 c2 t+ P5 q- V
8 i# _8 V) M4 ?4 M
& X! C O3 S- k( v, k- }- 整体性能碾压:总分相对基线提升了17.0%。其中,简洁性提升最为显著,高达37.2%,说明它生成的图逻辑更干净、重点更突出;可读性(+12.9%)和美观性(+6.6%)也有大幅领先。
1 [& d6 f9 W' Z0 M+ G, M - 获得人类盲测认可:在匿名的人类盲测中,研究员有72.7%的情况认为PaperBanana生成的图比基线模型更好。
, M/ o3 P) y N& w( r" g - 统计图表表现优异:在需要高精度的统计图表任务中,PaperBanana的“代码生成模式”在数值忠实性上与人类水平相当,而简洁性和美观性甚至略胜一筹。
0 |/ {8 a" `) Z. Z % a0 c7 ?, Q) ~" T- u$ E
这里需要说明,在生成图表方面,PaperBanana有两种模式:4 x# b/ e% }7 ?; S
一种是代码生成模式(默认)。让Gemini-3-Pro这类模型自动写Python可视化代码(如Matplotlib),再运行代码出图。优点是可以保证数值绝对准确,适合需要严格精度的场景。9 r3 S6 ~0 k& n2 e+ N* S) O P
另一种是直接生图模式(可选方式)。跳过代码,让图像生成模型直接根据文本描述生成图表。优点是视觉效果更顶,但数值容易出现幻觉问题。
2 E! {. g0 I' ] _2 p+ ~, A左图直接生图模式下,红框圈选出来的就是一些错误问题,而右侧的代码生图模式明显无误,但美观度略逊。
# w8 F* E7 k# ~1 o- |+ F3 v
5 {- T6 W6 S1 [最后的消融实验证明,检索参考、风格优化、批判迭代这三个环节缺一不可,它们共同保证了最终图像的“准确”与“好看”。! r4 [4 o* l0 b" h# b. ~+ }
不过也需要提醒,PaperBanana目前仍有一些局限性,比如它作为生图还无法编辑,同时在很多细节忠实度方面仍比不上人类手工作业。
! W- U: h3 ^1 K7 C2 P所以,更保险的做法或许是,让它帮你优化以前绘制过的图。$ x8 b# _6 q0 |, k6 D: f
在下面这套“手图蜕变”流程下,很多图都能变得更美观、更高级……当然也更容易入顶会的眼(doge)。
: H" M# A0 E, S" z3 ?
1 w- p$ Y `/ b% P* X' p# j2 m; A谷歌x北大联手打造( x5 N3 S8 n( c! V3 ]8 e- t5 A
4 R2 Y/ |( V% K. C7 S2 c" A
最后介绍下PaperBanana背后的团队。
. g3 T$ [) A0 I4 e o一共7人,可以清晰分成两拨——
' S, Z' a+ r7 [一拨来自北大,主要提供NLP与多模态理解的学术根基;另一拨来自Google Cloud AI Research,负责多模态系统与工业化视角。( I6 k6 U5 V5 @4 I x, Y
$ s4 m3 n0 R) s1 _6 O7 [4 v" o7 a
署名第一的DawEI Zhu(兼通讯作者),本硕博均就读于北大,现为北大四年级博士生。
. b, O4 E1 M# U/ J6 `7 e! x% ~. b他重点研究长上下文建模和多模态数据,之前在微软亚洲研究院实习过,目前是Google Cloud AI Research学生研究员,PaperBanana也是他在谷歌期间参与的项目。
" S5 B2 c0 C. g M; p$ k# P- U
, ^9 M0 S; P. g/ z$ D1 E借着北大这条线,另外两位来自北大的分别是Xiyu Wei和Sujian Li(兼通讯作者)。. t* j4 B! k) a5 \
Sujian Li目前是北大计算机学院长聘副教授,也是Dawei Zhu的博导,主要研究自然语言处理、信息抽取等。
% G/ C8 [8 P0 X- V! i而Xiyu Wei可能还是学生,目前只能看到TA和Dawei Zhu合作过一篇关于拓展上下文的论文。4 C2 ]$ G! M9 _( I9 v8 e" U. r
. q5 X4 \+ Y; k( Y3 t而其他几位来自Google Cloud AI Research的分别是:2 x, W8 K4 r) k3 @8 x
负责人Tomas Pfister、高级研究科学家Yale Song、研究科学家Rui Meng和Jinsung Yoon(兼通讯作者)。2 t- L3 N: i' r4 b/ e
截至目前,PaperBanana已在开源社区GitHub揽获上千star,感兴趣可以继续关注。
3 s% p: ~1 k# t' a: |& @8 N) ^( P% v3 c, A
项目主页:
( W2 t/ B p# s' {0 nhttps://dwzhu-pku.github.io/PaperBanana/. t% t8 C: X2 H4 x
论文:
2 X# t3 K( `) _# z) m4 q' Yhttps://arxiv.org/abs/2601.23265
) F8 K/ T; }6 l& |: D) {' R. S, cGitHub地址:
0 `4 D4 g4 H; _) khttps://github.com/dwzhu-pku/PaperBanana |
|