找回密码
 立即注册
查看: 206|回复: 5

谷歌北大联手学术版Banana爆火,论文图表100%精确生成

[复制链接]

1810

主题

290

回帖

5700

积分

论坛元老

积分
5700
发表于 2 小时前 | 显示全部楼层 |阅读模式
效果好到刷屏的Nano Banana,学术特供版热乎出炉!
" y# I8 C* x7 _, t; u# ^4 C名字就是如此直观——PaperBanana,给你每天都在头痛的Paper用上Banana。(试图押韵skr)
/ w% C* B& z6 U0 e- h# P而且这一次是由谷歌北大强强联手打造。
" W$ L- b7 j7 I# K* W6 G8 Q$ K0 D9 R
( l& j$ C$ s0 p9 ~  L
知道你想马上看效果,别急,三个官方案例这就给大家搬上桌。, x, y( o1 Q, e9 `( x0 d$ t4 E
在相同输入下,人类绘制、原版Nano Banana与PaperBanana生成的论文插图对比如下:
  a- E! V$ ~' ~6 j" [3 u6 K综合评估显示,PaperBanana在美观性、简洁性与逻辑清晰度上均全面优于原版。
5 ^/ v! X% b6 V% y

, K% F/ g5 G, L3 }' d而且它还能直接优化人工绘制的插图,瞅瞅右边,是不是高级感一下就上去了。
2 R. K( C9 V/ e  E, s

9 q) B4 u: ^! D% x5 Q  l! f0 |5 A此外,由于PaperBanana还提供代码出图功能 (即利用Gemini-3-Pro自动生成并执行Python可视化代码出图),所以它还能用来生成需要数值100%精准的各种图表。2 R# |. e& a% A; a( H- Q
! q; L, l* ^- u/ a9 X1 X' K
好好好,既能拿捏高级感,又不忘精准度,应该没有学术人不爱吧~
+ k8 c7 q% w; u+ v; @( O5 y

" ^% J7 t) b0 p4 b3 H3 @0 t) N论文作者表示,PaperBanana为全自动生成可用于出版的插图铺平了道路。& W& @/ P3 Q( \% w9 z' M. r/ D: K
我们希望这个框架能成为连接复杂科学概念与高效视觉叙事的桥梁,赋能每一位研究者,用专业级的视觉语言清晰呈现其发现。" ~! c2 E: e; k( B- e0 k
而在看到其效果之后,一众网友也纷纷感叹“学术插图”这个老大难总算是要被攻克了。
2 k- }! B, z; m  e想想以前的日子,真真是要落泪了~$ `" x8 H5 h" k+ _5 _  V0 q
研究人员花费4个小时在Figma中绘制一张图,简直令人难以置信。
  \( [, J9 t: C1 g/ P* M5 |
7 b7 c( Y2 C. p/ k
那么,学术版PaperBanana是如何炼造的呢?
" h1 Y: Q5 B) w- W6 B; P一个不够,那就5个!
( }5 J' c! A* }  \; T+ a+ O3 {- `" A  e9 X1 W) }* E+ A( k0 N
用一个模型生图怎么够,现在都是多智能体齐上阵了。( K+ d$ t4 M/ l$ _8 s7 h0 @& p
没错,PaperBanana背后就是5个分工明确的智能体在起作用。
; C6 c4 n# g: z+ H/ `( j8 v( Y

    # W8 |0 z. @7 r% d; |
  • Retriever Agent(检索智能体):从顶会论文库中,找到与你要画的图领域、结构最相似的参考案例。
    7 `& M0 ]# h# Y# w$ `
  • Planner Agent(规划智能体):把论文文字描述,转化为包含所有模块、逻辑的详细绘图说明书。" f. c# ]) X5 G! P! N! `7 e3 E% L
  • Stylist Agent(风格智能体):总结学术审美规范,给说明书加上配色、排版等“美颜”标准。
    : @4 B& Q# o  [9 x! {" x; O: a
  • Visualizer Agent(可视化智能体):根据说明书,直接画图或写代码出图,产出初稿。
    7 I; |& j8 k. Y( a1 b$ ^+ l. N6 V
  • Critic Agent(批判智能体):检查图的对错与美观度,提出修改意见,循环迭代3轮优化。. v6 m7 Z; y6 n# Y& {3 s6 o) Z8 m
下面这张图清晰展示了它们的工作流程:2 U! f1 i: p- p' Z' u" g( n7 e, H
划重点,连这张图也是PaperBanana自己生成的。
- S3 N4 O1 p7 V
* T* |' d7 \- E
论文作者表示,这一过程参考了人类制作论文插图的流程。& O1 F' F0 W3 }" k
以制作一个模型架构图为例,通常研究人员会先去看看顶会里类似工作的图是怎么画的,找找灵感和规范。
; d9 n# o: Q9 v. O2 A这一步就对应了检索智能体的工作。
( ]2 R- g2 M/ Z3 c% v然后就需要根据参考来规划自己的图该怎么画,“我的方法有几个关键模块?”、“数据流和逻辑顺序是怎样的?”,在想清所有关键问题后,脑子里大概就有一幅架构蓝图了。# i' r; x& k4 z+ K0 {
而到这一步还不是真正动笔的时候,因为还需要结合自己的图以及之前看过的“顶会审美”标准,来给蓝图加点设计感。7 W5 U0 J: q1 C% o5 n. H. ?3 L
有了这两样东西(蓝图+审美),现在就可以真正出图了。
4 i: I4 o1 ?; V2 f并且出完之后,研究人员往往还需要检查一番,以确保出图正确无误。
' B9 x) s2 @# G# g1 `

4 v! A; F  J2 z3 x* I' K- n怎么样?是不是一环扣一环、且全都一一对应上了。! a, K8 u7 d, m. ?- A+ }" Y4 V8 E
而在了解完PaperBanana的工作方式后,接下来的问题在于:
0 N4 R" ?3 p" l, m1 Y' o怎么评估PaperBanana的生图效果?- S- v- f& m3 x2 g: P4 f
实验方法及结果
  Q- j; L' b* h9 k+ J
" p/ m0 n$ M2 q" a/ `9 r3 d对此,团队还专门构建了一个PaperBananaBench。该基准内容源自NeurIPS 2025——  A' P) z( l- ^) p
他们从5275篇论文中随机采样2000篇,经过滤、人工校验后,得到584个有效样本,然后将其均分为292个测试样本和292个参考样本。
, N1 Y+ L. P- D. L. F0 Z: C这292个参考样本,每一个都提取了完整的(S, C, I)三元组:6 l8 Y; o: M/ o% |$ z3 d
    ; }% c6 r; m/ w% N
  • S(源上下文):描述方法的文本,如论文方法论章节;* U' {7 y- Y- g8 r& }8 q
  • C(传达意图):图的标题/说明,如“我们的框架概述”;& m7 z6 M" d: E! X! G1 c9 R- D3 ~
  • I(参考图像):论文中实际使用的、高质量的对应图表。3 t  ~1 L, e; u% p" p( \1 P. J
参考样本集构成了一个高质量的“学术插图数据库”,主要供检索智能体进行查询和匹配。
) C! F/ B( f  Q! N0 v9 D2 ]而与之对应的292个测试样本,在评估时则仅提供S、C作为输入。其对应的I作为隐藏的标准答案,不参与生成过程,仅用于最终的质量比对与评分。
; U" _2 B7 p$ M6 a) @2 E准备到这里,接下来就是具体生成和评估了。
9 l: l8 [1 I8 O: u2 u: v裁判方面,他们采用了“VLM-as-a-Judge”(大模型当裁判)的评估范式——
. x, P) B# I% f+ A& p' _0 [) `$ v让强大的视觉语言模型(如Gemini-3-Pro)作为评委,将PaperBanana生成的图与测试集中隐藏的标准答案I进行逐项对比。
0 _0 l  [( }2 W! y对比的维度主要有四个:忠实性、简洁性、可读性、美观性
, N6 f2 n2 m/ V1 S& @' R) W: U若PaperBanana表现优于标准图得100分,劣于得0分,持平得50分,最终计算总分。
9 K* o6 V/ X+ n7 ]$ q而实验结果表明,PaperBanana在所有维度上全面超越了传统的单模型直接生成(Vanilla)等基线方法。" W2 w6 }; x/ ~! K

  W/ }2 I& S: ^& ]2 ~
    : h  B+ e( V* _, n' ~
  • 整体性能碾压:总分相对基线提升了17.0%。其中,简洁性提升最为显著,高达37.2%,说明它生成的图逻辑更干净、重点更突出;可读性(+12.9%)和美观性(+6.6%)也有大幅领先。
    : Q+ x+ l* S2 d4 k8 L2 [; a" n. ~; p
  • 获得人类盲测认可:在匿名的人类盲测中,研究员有72.7%的情况认为PaperBanana生成的图比基线模型更好。* b( C! ~& w8 w. P* X
  • 统计图表表现优异:在需要高精度的统计图表任务中,PaperBanana的“代码生成模式”在数值忠实性上与人类水平相当,而简洁性和美观性甚至略胜一筹。8 O& O$ X5 M4 W. H& S: ~' `+ D
5 _% m$ R& q0 m# H
这里需要说明,在生成图表方面,PaperBanana有两种模式:- u; p% n" A: Y% |0 v: ]% Q
一种是代码生成模式(默认)。让Gemini-3-Pro这类模型自动写Python可视化代码(如Matplotlib),再运行代码出图。优点是可以保证数值绝对准确,适合需要严格精度的场景。& B' y3 J: n3 B
另一种是直接生图模式(可选方式)。跳过代码,让图像生成模型直接根据文本描述生成图表。优点是视觉效果更顶,但数值容易出现幻觉问题。2 t2 q  H0 Q# L, z- I
左图直接生图模式下,红框圈选出来的就是一些错误问题,而右侧的代码生图模式明显无误,但美观度略逊。, h, A* _. F4 v# p

. Q* ?! N2 F& P$ Q- [+ q最后的消融实验证明,检索参考、风格优化、批判迭代这三个环节缺一不可,它们共同保证了最终图像的“准确”与“好看”。
( O  [4 u( ^/ ~& |/ k+ ]不过也需要提醒,PaperBanana目前仍有一些局限性,比如它作为生图还无法编辑,同时在很多细节忠实度方面仍比不上人类手工作业。4 w2 O0 {  z3 Z7 d
所以,更保险的做法或许是,让它帮你优化以前绘制过的图。& w6 Q' [* O. x8 S6 D1 V# i
在下面这套“手图蜕变”流程下,很多图都能变得更美观、更高级……当然也更容易入顶会的眼(doge)。% N2 g, M8 R6 }! F: o6 [/ v$ D
: v/ p) e' O/ \; w) s0 h  F
谷歌x北大联手打造* g$ X. ]/ {+ W

. X6 {1 _0 `& z% e. Y/ O5 [( \最后介绍下PaperBanana背后的团队。4 g4 k2 p5 F7 H2 |& t1 ~
一共7人,可以清晰分成两拨——
1 j/ O! P5 @  E一拨来自北大,主要提供NLP与多模态理解的学术根基;另一拨来自Google Cloud AI Research,负责多模态系统与工业化视角。
3 |2 l1 ?7 A. Q1 t5 g9 d- \
' L: O+ I4 [$ k) `
署名第一的DawEI Zhu(兼通讯作者),本硕博均就读于北大,现为北大四年级博士生。* U  B- y; r1 S
他重点研究长上下文建模和多模态数据,之前在微软亚洲研究院实习过,目前是Google Cloud AI Research学生研究员,PaperBanana也是他在谷歌期间参与的项目。( T0 h/ [5 ]9 U4 U3 `- \

) Q: ^" W' j3 p( V借着北大这条线,另外两位来自北大的分别是Xiyu Wei和Sujian Li(兼通讯作者)。
! L! I9 Q$ m0 b: p/ R- g+ B/ R& [Sujian Li目前是北大计算机学院长聘副教授,也是Dawei Zhu的博导,主要研究自然语言处理、信息抽取等。
+ i8 u+ p( S. ?  ?, U$ u" r而Xiyu Wei可能还是学生,目前只能看到TA和Dawei Zhu合作过一篇关于拓展上下文的论文。0 z  b8 L; h5 M& V# F% y4 @
. v4 h3 ^& B: W- S, }; W; j
而其他几位来自Google Cloud AI Research的分别是:4 O5 \2 }2 w3 i: D  p4 L
负责人Tomas Pfister、高级研究科学家Yale Song、研究科学家Rui Meng和Jinsung Yoon(兼通讯作者)。
3 a4 @6 v: f# Z; q: ^8 \截至目前,PaperBanana已在开源社区GitHub揽获上千star,感兴趣可以继续关注。- w# x, k, P( f( e
( `  b; V; Q0 R
项目主页:. l; B  X- }* J# p" B4 B
https://dwzhu-pku.github.io/PaperBanana/  s: L; l; q8 S6 z0 `8 b9 k* N
论文:+ G9 r5 ^8 s! t" e- [1 d2 m' j
https://arxiv.org/abs/2601.232652 l! z- v9 O/ i# a
GitHub地址:
1 T$ e$ j9 T  v- e  D2 Y/ Fhttps://github.com/dwzhu-pku/PaperBanana
集群智慧云科服专利申请服务

0

主题

1181

回帖

3579

积分

论坛元老

积分
3579
发表于 2 小时前 | 显示全部楼层
不支持后期编辑是唯一的短板,如果后续可以像 Figma 那样接入手动修改,就几乎完美
集群智慧云科服SCI/SSCI/EI期刊发表服务

0

主题

1181

回帖

3579

积分

论坛元老

积分
3579
发表于 2 小时前 | 显示全部楼层
说好的100%精准呢,我瞅着那代码生图模式的美观度还是差了点,就像打印店赶工出来的图,细节处总差点意思

0

主题

1181

回帖

3579

积分

论坛元老

积分
3579
发表于 2 小时前 | 显示全部楼层
学术插图神器来了,AI解放科研狗不是梦!

0

主题

1181

回帖

3579

积分

论坛元老

积分
3579
发表于 2 小时前 | 显示全部楼层
不支持后期编辑是唯一的短板,如果后续可以像 Figma 那样接入手动修改,就几乎完美

0

主题

1181

回帖

3579

积分

论坛元老

积分
3579
发表于 1 小时前 | 显示全部楼层
说好的100%精准呢,我瞅着那代码生图模式的美观度还是差了点,就像打印店赶工出来的图,细节处总差点意思
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表