找回密码
 立即注册
查看: 211|回复: 5

谷歌北大联手学术版Banana爆火,论文图表100%精确生成

[复制链接]

1850

主题

290

回帖

5700

积分

论坛元老

积分
5700
发表于 6 小时前 | 显示全部楼层 |阅读模式
效果好到刷屏的Nano Banana,学术特供版热乎出炉!; v0 U2 |, M! O6 {
名字就是如此直观——PaperBanana,给你每天都在头痛的Paper用上Banana。(试图押韵skr): |' d8 |, F: g! Q
而且这一次是由谷歌北大强强联手打造。9 _9 |2 ?& @( C: p7 z  o3 D

& l3 x8 @3 n) v* J1 d2 N知道你想马上看效果,别急,三个官方案例这就给大家搬上桌。: A4 r" T% ~' Y% y% E) U" h
在相同输入下,人类绘制、原版Nano Banana与PaperBanana生成的论文插图对比如下:
% x% L1 X( c" ^8 [% T综合评估显示,PaperBanana在美观性、简洁性与逻辑清晰度上均全面优于原版。) H1 M+ m7 }8 w! f
, y; f1 P4 [! K
而且它还能直接优化人工绘制的插图,瞅瞅右边,是不是高级感一下就上去了。
* g6 [) k; @+ @

( t- M4 W6 z6 q4 ^此外,由于PaperBanana还提供代码出图功能 (即利用Gemini-3-Pro自动生成并执行Python可视化代码出图),所以它还能用来生成需要数值100%精准的各种图表。
! Y& G) ~, I' h6 f
1 K$ `+ e# g- D( v9 q8 Y: L: @
好好好,既能拿捏高级感,又不忘精准度,应该没有学术人不爱吧~1 \# K7 g$ @; o  t% e

+ E) y4 n% l9 G6 o+ t1 Z7 u论文作者表示,PaperBanana为全自动生成可用于出版的插图铺平了道路。# Q4 n. [0 b6 ]6 j! d, D1 m
我们希望这个框架能成为连接复杂科学概念与高效视觉叙事的桥梁,赋能每一位研究者,用专业级的视觉语言清晰呈现其发现。& V. B$ t- \# n. R  n
而在看到其效果之后,一众网友也纷纷感叹“学术插图”这个老大难总算是要被攻克了。; ~+ d& w6 `* }& Z0 r6 S; N
想想以前的日子,真真是要落泪了~4 V1 \; _% W9 w: h0 x
研究人员花费4个小时在Figma中绘制一张图,简直令人难以置信。
) a4 h2 o# h! \1 O7 I# _0 s
3 x5 Z- }, S5 t" G3 @1 T! R/ ~
那么,学术版PaperBanana是如何炼造的呢?4 |8 q% @- _* }" `) u0 E) j5 {2 n5 E
一个不够,那就5个!
" j1 S5 t4 H6 ]4 L* Q+ }+ s5 f8 n4 W4 Z- S! X
用一个模型生图怎么够,现在都是多智能体齐上阵了。
. D  u9 }& M# g  q没错,PaperBanana背后就是5个分工明确的智能体在起作用。, l7 a& `  K0 H$ N
    ' r& f# k+ V1 }4 ^  g9 Z! M+ z
  • Retriever Agent(检索智能体):从顶会论文库中,找到与你要画的图领域、结构最相似的参考案例。
    $ z( e5 J6 R7 A; V: L( f' p8 B( C
  • Planner Agent(规划智能体):把论文文字描述,转化为包含所有模块、逻辑的详细绘图说明书。
    % c- x" s' o2 w' p- ~$ L2 @9 \
  • Stylist Agent(风格智能体):总结学术审美规范,给说明书加上配色、排版等“美颜”标准。
    # e4 W* c+ v- _  e8 @* a2 C
  • Visualizer Agent(可视化智能体):根据说明书,直接画图或写代码出图,产出初稿。4 T9 l6 n8 z3 a: y! [) R: u
  • Critic Agent(批判智能体):检查图的对错与美观度,提出修改意见,循环迭代3轮优化。3 @7 p) n& J7 }/ ]3 R& p
下面这张图清晰展示了它们的工作流程:$ w$ X* f7 N1 J* u( y; S5 \+ X
划重点,连这张图也是PaperBanana自己生成的。2 N* l+ ?. w8 e
) b4 h3 w0 v- m( H* Q
论文作者表示,这一过程参考了人类制作论文插图的流程。7 l& u* H" c) G3 B# o! R7 S
以制作一个模型架构图为例,通常研究人员会先去看看顶会里类似工作的图是怎么画的,找找灵感和规范。
" t2 W8 S6 w  {2 s这一步就对应了检索智能体的工作。
. ~: }, z4 m' o然后就需要根据参考来规划自己的图该怎么画,“我的方法有几个关键模块?”、“数据流和逻辑顺序是怎样的?”,在想清所有关键问题后,脑子里大概就有一幅架构蓝图了。$ K# p! p0 [+ }, ?+ U" H, C. [
而到这一步还不是真正动笔的时候,因为还需要结合自己的图以及之前看过的“顶会审美”标准,来给蓝图加点设计感。% H3 v# v$ Y% U1 @) ~
有了这两样东西(蓝图+审美),现在就可以真正出图了。
1 J' f! J( \9 o" z- K并且出完之后,研究人员往往还需要检查一番,以确保出图正确无误。2 n- \1 E% h# L$ @5 p# ?

$ Q; q3 U" {# T( H怎么样?是不是一环扣一环、且全都一一对应上了。. I% }: |/ [9 `# l
而在了解完PaperBanana的工作方式后,接下来的问题在于:
6 n( l- d' B& R: E$ u& w怎么评估PaperBanana的生图效果?
9 V- A7 b3 f  k+ t9 j实验方法及结果
, d. ]  ~9 o% a4 {, R7 h+ ]" U9 U9 L
对此,团队还专门构建了一个PaperBananaBench。该基准内容源自NeurIPS 2025——
3 c$ L. P" v5 b他们从5275篇论文中随机采样2000篇,经过滤、人工校验后,得到584个有效样本,然后将其均分为292个测试样本和292个参考样本。
# w( [6 l# S8 @这292个参考样本,每一个都提取了完整的(S, C, I)三元组:
; x; _6 o! q( F
    5 X' Y* u$ u/ }8 V) E  D0 I
  • S(源上下文):描述方法的文本,如论文方法论章节;
    ; I# T& V* j# N+ j
  • C(传达意图):图的标题/说明,如“我们的框架概述”;; N6 C" I/ L5 L8 H+ J/ G# Y
  • I(参考图像):论文中实际使用的、高质量的对应图表。
    ' g4 o7 |# g1 _! ~, w5 d8 N
参考样本集构成了一个高质量的“学术插图数据库”,主要供检索智能体进行查询和匹配。, ?$ y2 S7 I6 K1 H) d+ D1 M: X4 ~
而与之对应的292个测试样本,在评估时则仅提供S、C作为输入。其对应的I作为隐藏的标准答案,不参与生成过程,仅用于最终的质量比对与评分。4 Q' C& t/ A7 c  g. ~# r" u/ l. a/ l
准备到这里,接下来就是具体生成和评估了。
+ }0 @* L; w9 M' o+ I裁判方面,他们采用了“VLM-as-a-Judge”(大模型当裁判)的评估范式——5 h4 |. U, f/ c# q, [6 w  A
让强大的视觉语言模型(如Gemini-3-Pro)作为评委,将PaperBanana生成的图与测试集中隐藏的标准答案I进行逐项对比。4 a. P. |& m3 v: o8 h6 q' [
对比的维度主要有四个:忠实性、简洁性、可读性、美观性  W* M; U  @8 ~( p: U$ i
若PaperBanana表现优于标准图得100分,劣于得0分,持平得50分,最终计算总分。
& ~; A" j% w7 m而实验结果表明,PaperBanana在所有维度上全面超越了传统的单模型直接生成(Vanilla)等基线方法。+ m1 T4 L  y& c) v* g
, D/ `% [6 e* j8 V' U7 A. N* @. v

    * p( Z8 P/ B" x2 l& n8 o2 L
  • 整体性能碾压:总分相对基线提升了17.0%。其中,简洁性提升最为显著,高达37.2%,说明它生成的图逻辑更干净、重点更突出;可读性(+12.9%)和美观性(+6.6%)也有大幅领先。
    6 y5 K% I% u3 J2 [: q, i
  • 获得人类盲测认可:在匿名的人类盲测中,研究员有72.7%的情况认为PaperBanana生成的图比基线模型更好。( c8 \! h, s, F2 |& A9 }' a! h# N
  • 统计图表表现优异:在需要高精度的统计图表任务中,PaperBanana的“代码生成模式”在数值忠实性上与人类水平相当,而简洁性和美观性甚至略胜一筹。
    1 [4 W8 {, H9 P/ B: o! A4 `7 ^  G9 B
, S9 N0 ~. D4 z- O/ G+ R, o
这里需要说明,在生成图表方面,PaperBanana有两种模式:3 |$ g' X4 ?$ S( {
一种是代码生成模式(默认)。让Gemini-3-Pro这类模型自动写Python可视化代码(如Matplotlib),再运行代码出图。优点是可以保证数值绝对准确,适合需要严格精度的场景。
% e1 c, l7 C! L0 M+ K+ \另一种是直接生图模式(可选方式)。跳过代码,让图像生成模型直接根据文本描述生成图表。优点是视觉效果更顶,但数值容易出现幻觉问题。: y. c# u% A. t* F: [! O
左图直接生图模式下,红框圈选出来的就是一些错误问题,而右侧的代码生图模式明显无误,但美观度略逊。5 P- k6 l6 T+ g. r, C) Q) H
% l1 Z5 o; N) |
最后的消融实验证明,检索参考、风格优化、批判迭代这三个环节缺一不可,它们共同保证了最终图像的“准确”与“好看”。8 I* V( H4 w: Y
不过也需要提醒,PaperBanana目前仍有一些局限性,比如它作为生图还无法编辑,同时在很多细节忠实度方面仍比不上人类手工作业。
  {* j- N8 u% W. w. b" h* v$ @( W所以,更保险的做法或许是,让它帮你优化以前绘制过的图。6 S  E6 R" v% Q% W
在下面这套“手图蜕变”流程下,很多图都能变得更美观、更高级……当然也更容易入顶会的眼(doge)。+ n: {0 n% i2 d7 Y- T  \

) S/ X$ s6 M" f谷歌x北大联手打造) B+ T. G- i1 r  E( q- i6 h
. M4 Z9 y- {8 F; M, O8 ]+ r
最后介绍下PaperBanana背后的团队。
. s& b! R2 d# f9 H一共7人,可以清晰分成两拨——. M3 ~1 w: Z5 L$ ]
一拨来自北大,主要提供NLP与多模态理解的学术根基;另一拨来自Google Cloud AI Research,负责多模态系统与工业化视角。- ]6 A+ N3 G4 p' b

$ N: U. h. B; Z4 H署名第一的DawEI Zhu(兼通讯作者),本硕博均就读于北大,现为北大四年级博士生。0 U/ s4 O& N# L2 y' m
他重点研究长上下文建模和多模态数据,之前在微软亚洲研究院实习过,目前是Google Cloud AI Research学生研究员,PaperBanana也是他在谷歌期间参与的项目。9 ]! j) {. M2 q) p; _; l

4 B; b/ x& o4 s借着北大这条线,另外两位来自北大的分别是Xiyu Wei和Sujian Li(兼通讯作者)。" Z# |. V9 b6 I% M
Sujian Li目前是北大计算机学院长聘副教授,也是Dawei Zhu的博导,主要研究自然语言处理、信息抽取等。+ }9 e3 n: z) W4 y* q6 z9 X
而Xiyu Wei可能还是学生,目前只能看到TA和Dawei Zhu合作过一篇关于拓展上下文的论文。0 Y. g$ t" J1 ?
& G6 P% F7 v# R  r: {1 w' {
而其他几位来自Google Cloud AI Research的分别是:, ~8 b0 z* K8 s/ N/ D. y1 k; T" l
负责人Tomas Pfister、高级研究科学家Yale Song、研究科学家Rui Meng和Jinsung Yoon(兼通讯作者)。1 G5 J; \6 U6 e, L  s
截至目前,PaperBanana已在开源社区GitHub揽获上千star,感兴趣可以继续关注。
6 V% E; O  i* y/ [! F7 G1 ]
$ q8 J& B# ~9 _& G3 p
项目主页:" \- b+ [0 ]; Q$ B1 f
https://dwzhu-pku.github.io/PaperBanana/
$ L2 ^7 k% h/ E+ e* ~论文:
4 n5 M' f, D( |3 G! shttps://arxiv.org/abs/2601.23265
' a2 I! i9 x( A0 |0 \GitHub地址:
' q4 y; p. O. ahttps://github.com/dwzhu-pku/PaperBanana
集群智慧云科服专利申请服务

0

主题

1192

回帖

3612

积分

论坛元老

积分
3612
发表于 6 小时前 | 显示全部楼层
不支持后期编辑是唯一的短板,如果后续可以像 Figma 那样接入手动修改,就几乎完美
集群智慧云科服SCI/SSCI/EI期刊发表服务

0

主题

1192

回帖

3612

积分

论坛元老

积分
3612
发表于 5 小时前 | 显示全部楼层
说好的100%精准呢,我瞅着那代码生图模式的美观度还是差了点,就像打印店赶工出来的图,细节处总差点意思

0

主题

1192

回帖

3612

积分

论坛元老

积分
3612
发表于 5 小时前 | 显示全部楼层
学术插图神器来了,AI解放科研狗不是梦!

0

主题

1192

回帖

3612

积分

论坛元老

积分
3612
发表于 5 小时前 | 显示全部楼层
不支持后期编辑是唯一的短板,如果后续可以像 Figma 那样接入手动修改,就几乎完美

0

主题

1192

回帖

3612

积分

论坛元老

积分
3612
发表于 5 小时前 | 显示全部楼层
说好的100%精准呢,我瞅着那代码生图模式的美观度还是差了点,就像打印店赶工出来的图,细节处总差点意思
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表