|
|
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!% s' S+ O7 o. o- d" f
北京大学与谷歌云AI研究团队联合推出了PaperBanana。
8 Y3 r5 J5 ]' ]% [' u
五大智能体联手,让AI画出NeurIPS级别的图表。) F. l/ G( D1 d. `
PaperBanana给每位AI科学家配备了一个专属的设计团队,学术插图将不再依赖人工手绘。6 @7 h- L3 e: ], W6 W5 u+ S3 l" K
它通过检索、规划、风格设计、绘图和自我修正五个步骤,能够将枯燥的论文方法描述和标题转化为达到出版标准的精美图表。0 [8 \- B6 u/ x
五个智能体分工协作
`- l6 I8 x0 j* J3 m8 h* B
* p" V( }; G( u+ a' Z: F# Q$ I现在的自主AI科学家已经能够独立阅读文献、构思创意甚至执行代码实验。
' C8 |2 f0 z# }1 G/ h$ L但这些AI科学家对绘制学术插图仍然束手无策。
U* O4 s: S: x. \! {5 {学术插图的生成长期以来都是科研工作流中的瓶颈,它要求内容的准确性,还要求极高的审美标准。
3 V& _* @5 @. i: W; P8 HPaperBanana框架模拟了人类的设计工作室,构建了一个由五个专业智能体组成的协作团队。
; N/ w( x5 l& J1 @% ~. R% R
这个团队的第一位成员是检索器(Retriever Agent)。2 |0 U7 b' l( E+ P ^' Y' Z
当用户输入一段关于方法的文本描述和图表标题时,检索器去翻阅参考图库。像一位经验丰富的图书管理员,在庞大的数据库中寻找与当前任务最相似的参考案例。
0 q) K: E; r( W4 G h+ Z利用视觉语言大模型(VLM)的推理能力,根据研究领域(比如是讲Agent的还是讲视觉的)以及图表类型(是流程图还是架构图)来筛选候选者。
/ c' X! c C# F. T" K4 x检索器会看视觉结构的相似性,找出最相关的若干个例子作为后续工作的灵感来源。- V+ m( E4 U# O- \' z1 } _# h5 ?
有了参考案例后,规划师(Planner Agent)随即登场。* B" d9 P5 g3 I# M
规划师是整个系统的认知核心,它接收源文本、意图以及检索器找来的参考图。
( {3 Y' }, a& C9 v& o8 ]3 P通过从参考案例中进行上下文学习,规划师将原本非结构化的长文本描述转化为一份详尽的、结构化的绘图计划。/ q+ G' Z! w2 c& t
这一步非常关键,因为它解决了从抽象概念到具体视觉元素转化的逻辑断层问题。) g4 h# B% b2 M& Z: z6 V. {& D
规划师不会直接画图,而是生成一份详细的文本描述,告诉后面的团队这张图里应该有哪些模块,模块之间的数据流向是怎样的,箭头该怎么指。
% L: \: V% M9 ?4 S" @" D紧接着是造型师(Stylist Agent)。
5 H: Y4 `, {8 _# ^: `8 s n6 f很多时候AI生成的图片之所以看起来不像学术插图,是因为缺乏那种严谨、冷峻的学术风。
1 o2 f2 N* R) r造型师的作用就是担任设计顾问。. U9 P* z; J+ { @. y
由于很难用一句话定义什么是学术风格,造型师会遍历整个参考图库,自动总结出一份美学指南。5 ]/ o" B& t2 a6 A; u/ }
这份指南涵盖了配色方案、形状容器、线条箭头样式、布局结构以及字体图标等关键维度。/ d- Z) z# U1 x5 Z* \
造型师拿着这份指南,对规划师生成的描述进行润色和修饰,确保最终生成的图在视觉上符合现代学术出版物的审美标准。* _ Y& u6 i; f) s) R
第四位成员是视觉化师(Visualizer Agent)。
4 ^4 s* X2 S1 J' Y它拿着经过造型师优化过的描述,调用最先进的图像生成模型将文字转化为像素。# n2 N' D6 }8 f- K8 j& ?" f0 c
在这个阶段,文字描述变成了可视化的初稿。
2 b: y o. L. m. `# K) s. {8 E对于方法论图表,它主要依赖图像生成模型;而对于需要精确数值的统计图表,它则会变身为程序员,编写Python代码来绘制图表。
- W7 L: p8 c) d) C8 t最后一位也是最关键的一位成员是批评家(Critic Agent)。
0 K# d2 D1 C, q) p# J- P在初稿生成后,批评家会介入。它拿着生成的图片和最原始的输入文本进行比对,检查是否存在事实性错误、视觉故障或者遗漏的信息。0 w- C! g/ C; M; E' @' O9 u- B
批评家会生成具体的反馈意见,并修改绘图描述。这个修改后的描述会再次交回给视觉化师进行重绘。" S7 `+ k! Z& V
这个“生成-批评-修正”的循环通常会进行三轮,通过不断的自我反思和迭代,消除幻觉,修正细节,直到产出一张高质量的学术插图。
% C, W2 c/ l; U! p9 ^' D$ P/ K就像人类设计师不断修改草稿的过程,极大地提高了最终成品的质量。" n4 H! T4 o' [, v2 F* ]9 ?- @. |0 y3 w
严谨的绘图评估基准
" k% w' W; f! I: f$ ?) U" ~6 U z0 \* K( b6 P- Q2 `' C
在学术插图生成这个新兴领域,缺乏高质量的评估基准。+ d) }$ b- H" X+ j: [
研究团队构建了PaperBananaBench,这是一个专门针对方法论图表生成的综合基准测试集。1 M9 s, s" o, T. k
这个数据集的来源非常硬核,全部取材于NeurIPS 2025的顶级会议论文。2 f1 y" T% d0 x" L
研究人员通过工具从这些论文中提取了方法论部分的文本描述以及对应的图表和标题,确保了数据的真实性和高难度。# _4 Q( K5 N1 E' Y
数据的清洗过程相当讲究。
0 F$ h9 M" }" S$ X4 v原始抓取的几千篇论文中,并非每一篇都适合作为测试用例。
& ~+ K. c+ l# p7 w9 a: q0 X, g研究团队首先剔除了那些没有方法论图表的论文。
/ S4 [) c+ Y/ ^! C0 E随后他们对图表的长宽比进行了严格的筛选,只保留长宽比在1.5到2.5之间的图片。7 N+ N6 r8 W" ^% c1 {
这么做的原因很有趣,因为方法论图表通常需要较宽的横向布局来展示逻辑流,长宽比太小会显得拥挤;而长宽比过大又会超出当前图像生成模型的能力范围。4 K! t1 T7 s1 ~# ?3 W3 T& Z2 w
如果将这些极端比例的图包含进来,在进行人机对比评估时,很容易通过图片形状就暴露出哪张是人类画的,从而引入评估偏差。& O0 S0 n; |9 d5 d; L* i
为了更精细地分析生成能力,研究团队还将收集到的图表分为了四个类别:智能体与推理、视觉与感知、生成与学习、以及科学与应用。
& M) |4 \3 z' a3 G1 z" f- q5 R% k这种分类有助于观察模型在面对不同领域知识时的表现差异。9 v9 C% b) L: p! d, _0 `: H
最后经过人工的严格筛选和校验,留下了584个高质量样本,其中292个作为测试集,另外292个作为参考集,用于给检索器提供上下文学习的素材。$ R0 i8 i( A7 z6 O
这个基准测试集的建立,为后续评估自动化绘图工具的性能提供了坚实的数据基础。
M- ~- I' ?5 `评估图表的质量是一件非常主观的事情,传统的指标在这里完全失效。
( m2 Y0 q2 H+ Z/ T研究团队采用了基于视觉语言大模型(VLM)作为裁判的评估方法。
! N6 W5 h$ G6 Q4 j2 D考虑到人类评估既昂贵又不可扩展,他们验证了使用Gemini-3-Pro作为裁判的可靠性。
3 o( q1 n/ J% ]评估分为四个维度:忠实度、简洁性、可读性和美观度。
! m# m, p6 g3 _# s# V& v( [. e忠实度考察生成的图是否准确反映了文本内容;简洁性要求去除视觉杂乱,突出核心信息;可读性关注布局是否合理、文字是否清晰;美观度则衡量是否符合学术规范。
! w: X; j. ?7 f- \7 [在评分时,裁判模型会同时看到模型生成的图和人类绘制的原图,并根据文本描述判断哪一张更好。( I+ ^4 x1 I! ^( H. P3 P
这种基于参考的比较方法比单纯的打分更具鲁棒性。1 S: t; P3 z4 F) m, X2 @# g
为了验证这种机器裁判的有效性,研究人员进行了严谨的一致性测试。
0 r. O! a% b6 R" n9 `9 @结果显示,Gemini-3-Pro的评判结果与人类专家的评判具有很高的相关性,这证明了用VLM来当裁判是可行的。( A2 P Y* p7 l. b' k4 ~
这种自动化的评估流程使得大规模、标准化的图表质量测试成为可能,也为未来的研究指明了评估方向。
/ f1 a* [4 [( d1 \5 _2 `+ m M; Q1 S多项指标上超越现有基线4 Y$ D8 _. b) K. A
- R- C8 H' _* E研究团队在PaperBananaBench上进行了广泛的实验,对比了PaperBanana与多种基线方法的表现。
* i. N% q' J- L" R: |, m) t基线包括直接提示图像生成模型(Vanilla)、在提示中加入少样本示例(Few-shot)以及之前的相关工作Paper2Any。+ k6 m# N, S, }0 J$ k' [
PaperBanana在所有评估维度上都显著优于基线模型。* K% X5 u) ^5 X9 p, B
在忠实度上提升了2.8%,在简洁性上更是大幅提升了37.2%,可读性提升了12.9%,美观度提升了6.6%。综合总分提升了17.0%。) \9 d6 a% \/ H6 h8 v
普通的图像生成模型如果不加引导,往往会生成视觉上过于繁复、充满幻觉的图像,或者文字渲染一塌糊涂。
* L* s' f6 S* G9 S2 M8 d8 l而PaperBanana通过造型师的风格约束和批评家的迭代修正,能够精准地控制生成内容的细节。
& Y8 X2 O, K" c特别是简洁性的大幅提升,说明造型师和批评家非常善于砍掉那些不必要的装饰,让图表回归到“展示事实”这一核心原则上来。
: H }6 _5 {" e% } z消融实验进一步揭示了每个智能体的贡献。
- ~9 o' M3 Q) H当移除检索器时,模型因为缺乏参考,生成的描述变得冗长且缺乏重点,导致简洁性和美观度大幅下降。
' [3 b4 H: z- V当移除造型师和批评家时,虽然忠实度可能稍微保持,但简洁性和美观度都会受损。5 Y2 P8 Y; q: ^( h8 ?
造型师的介入虽然极大地提升了美感,但有时会因为过度追求极简而丢失少量细节信息,这时候批评家的作用就显现出来了,它能够在后续的迭代中把丢失的关键信息补回来,在美观和忠实之间找到平衡点。
7 _9 r' P/ @* e5 j& R! [
PaperBanana在生成统计图表方面也表现出色。" U9 H, `" {9 d- o1 [/ T; F$ h0 q
与方法论图表不同,统计图表对数值的精确性要求极高,哪怕一个数据点的偏差都是不可接受的。4 u8 E+ E) [2 N7 K2 Q
因此,在处理统计图表时,视觉化师不再依赖图像生成模型,而是转而生成可执行的Python Matplotlib代码。
1 b8 Y; E, u F0 E& K( Q9 y实验显示,这种策略在保持高美观度的同时,极大地保证了数据的忠实度。
/ p0 p' \ A+ |相比之下,直接用图像模型生成统计图,虽然看起来很像那么回事,但在数据密集的情况下容易出现数值幻觉或元素重复的问题。
* c- B7 L: n# Z9 P
PaperBanana这种根据任务类型灵活切换“绘图”与“写代码”模式的能力,展现了其强大的适应性。9 u" m; c$ g3 ]
更有意思的是,PaperBanana不仅能从零生成图表,还能帮人类改图。4 E7 u' H- L: _! R/ a
研究人员尝试让PaperBanana根据其总结的美学指南,对人类绘制的现有图表提出修改建议并重新绘制。
, k7 L, ?3 o- U0 q! F结果发现,经过PaperBanana润色后的图表在美观度上往往能战胜人类的原作。
. n0 A2 {( \5 e5 v: s7 ?2 I" B表明该框架中蕴含的设计知识已经达到甚至超过了一般科研人员的平均设计水平,它不仅是一个生成工具,更是一个潜在的图表美化助手。' ?: o! k- x) }4 I
当然,PaperBanana目前生成的结果本质上是光栅图像(像素图),而不是科研界更偏爱的矢量图。4 P8 e5 f' L# l4 B4 r
如果你放大看,可能会看到像素锯齿,而且后期编辑起来非常困难,不像矢量图那样可以随意拖动节点。6 i# y9 w1 D/ Q8 }
在处理极其细微的连接关系时,比如箭头到底是连在这个框的左边还是下边,它偶尔还是会犯迷糊,这些细微的结构性错误有时候连批评家也没能揪出来。. H$ X+ T/ ~ d& ^2 a/ j
未来的研究方向可能会集中在生成可编辑的矢量图形,以及进一步提升模型对细粒度视觉结构的感知能力上。
5 ?- g' Z# ]( Y- {参考资料:
4 x% ?/ U4 K- b! g4 j7 g1 A4 Phttps://dwzhu-pku.github.io/PaperBanana/
7 c3 S: t+ Q! U @: {: \' T' zhttps://arxiv.org/pdf/2601.23265
, [9 w3 y* j- D U3 L) Ihttps://github.com/dwzhu-pku/PaperBanana |
|