问AI · 谷歌回应为何未能平息反而加剧争议?
5 Q) O9 \" H6 E' k1 I/ R% h7 Q/ h6 c) Q8 G5 w9 y8 D
$ |! B0 g" w( @. t8 C0 K# s4 K
! R; B6 ?& M G$ x- T4 ]0 d- D2 |6 _ v8 r3 [2 Z
机器之心编辑部 1 Y' l0 D( k. M4 |4 D- V {
一篇 AI 论文,能否同时引发学术争议与 900 亿美元市值震荡?5 j' Z$ r5 V5 S- N5 a) l* I# y* I
上周末,我们报道了血洗内存股 900 亿刀的谷歌 AI 论文涉嫌学术不端。指控的核心在于,TurboQuant 团队涉嫌隐瞒核心技术借鉴、错误贬低先行研究,并在实验中进行极度不公平的硬件对比。
5 [7 c4 X3 a+ `随着舆论发酵,TurboQuant 的作者团队在 OpenReview 平台上做出了公开回应,第二作者 Majid Daliri 发布了一份分为四点的「技术澄清」。
6 }3 B5 p+ }' T% d' N/ L$ ]7 {: r4 S3 {
# j! S! @$ ?3 _( T8 m6 Nhttps://openreview.net/forum?id=tO3ASKZlok % u- h. i" V" F# O4 Z5 H
具体回应内容如下:' h6 r* A% ^# A1 i) `
1、核心创新 vs. 标准技术:TurboQuant 并未将其核心方法建立在 RaBitQ 之上。Random rotation 是量化领域中一种标准且广泛使用的技术,其出现时间早于 RaBitQ 的公开发布,例如在一些已有工作中已经被采用,如https://arxiv.org/pdf/2307.13304、https://arxiv.org/pdf/2404.00456、https://arxiv.org/pdf/2306.11987。TurboQuant 的真正创新在于:我们推导出了旋转后向量各坐标所遵循的精确分布,并利用这一结果实现了最优的逐坐标量化。
2 A2 W, U6 _, O3 G 2、关于 RaBitQ 最优性的修正:尽管 RaBitQ 的最优性可以从其内部证明中推导出来,但论文的主定理表明其失真误差界按某种形式进行缩放。由于指数项中存在一个隐藏的常数因子,该因子可能导致误差呈指数级放大,因此该形式化表述并未显式保证最优界。这也是我们最初将该方法描述为次优的原因。
- ]# _- [( t' u+ U3 K2 L6 X- B, x0 e; Z
/ K, o. }$ r) y) K& h* |6 {. q
然而,在对其附录进行仔细分析后,我们发现实际上可以推出一个严格的误差界。既然这一最优性已经由其更深入的证明所支持,我们正在更新 TurboQuant 的论文手稿,以更准确地标注并致谢其理论界限。
% n5 Q# A& w0 Z% N2 P+ B0 A8 M 3、实验基准的重要性:运行时基准对于我们的研究结论而言并不关键。TurboQuant 的主要贡献集中在压缩率与模型质量之间的权衡,而非特定的加速效果。本工作的价值在于:在极高压缩率下仍能保持模型精度。即使完全移除与 RaBitQ 的运行时间对比,本论文的科学意义与有效性也基本不会受到影响。4 J' q; q$ }2 I5 b6 D! I/ [0 n/ ?
4、关于时间节点的说明:TurboQuant 自 2025 年 4 月起已在 arXiv 上公开发布,其作者之一在此之前就已与 RaBitQ 作者进行过沟通(这一点也已被 RaBitQ 作者承认)。尽管对方有将近一年的时间可以通过学术渠道提出这些技术问题,但相关质疑是在 TurboQuant 获得广泛关注之后才被提出。
8 n0 E+ t/ p8 V 然而,这份回应不仅没能平息争议,反而像是在火上浇油,引发了学术社区和开发者群体更强烈的反弹与吐槽。
1 R" [4 {4 L$ e5 Q1 ?, {3 u% I% \4 ?! B( e! U: O7 N
- 把关键技术「降级」为行业常识
* j/ z* t) ~9 S# i: h 首先,针对「隐瞒核心技术相似性」的指控,即 TurboQuant 同样使用了 RaBitQ 论文中标志性的「随机旋转(Johnson-Lindenstrauss 变换)」作为第一阶段量化的核心,Daliri 的回应是:随机旋转在量化文献中是一项极其标准且无处不在的技术,早在 RaBitQ 出现之前就有了。他们强调,TurboQuant 的「真正创新」在于推导出了旋转向量坐标的具体分布(Beta 分布),并据此实现了最优的逐坐标量化。/ r! O* r/ O0 _, ^
这种说法在字面上没毛病,毕竟谁也不能给一个基础数学变换申请专利。但同行们吐槽的点在于,把别人在相同特定场景(向量量化)下率先组合使用的核心步骤轻描淡写地归结为「行业标配」,然后将顺理成章的分布推导包装成自己的「核心创新」,多少显得有些不够厚道。
3 ]# I! Z6 n- L4 R/ a
5 _4 c3 U `2 ~" y
- J$ q: i9 O @% v$ M- 核心理论评价,建立在「没看清附录」之上; H: H u# M: g; E6 @
其次,关于「错误贬低 RaBitQ 理论结果」的问题。TurboQuant 曾在正文中将 RaBitQ 的理论保证定性为「次优」和「分析粗糙」。面对原作者的对质,Daliri 倒是坦率地认了错。他解释说,因为 RaBitQ 论文主定理的指数中隐藏了一个常数因子,导致他们最初认为这会产生指数级误差,所以给出了「客观的次优评价」。但在仔细研究了对方的附录后,他们发现 RaBitQ 确实达到了严格的最优界限,并承诺会在最终版手稿中更正。
3 C# u r. s8 f! Z0 |虽然态度诚恳,但这段回应依然让人感到一点荒谬。一篇被谷歌官方博客数千万次曝光的 ICLR 顶会论文,其对同行竞品的核心评价,竟然是因为「没仔细看附录」而得出的草率结论。更何况,RaBitQ 团队早在近一年前的邮件沟通中就已经指出了这个理论误读,而 TurboQuant 团队硬是拖到事情在社交媒体上闹大、影响了纳斯达克指数之后,才「恍然大悟」地表示要修改。
. E' J" t0 p( k4 ~" O) P6 x
+ i, m; N, Z- ^2 w0 n- 最具争议的,是「硬件对比」这一环) @/ w2 _+ s2 @# x! f1 F2 u
第三点回应则彻底点燃了社区的情绪。RaBitQ 团队指控 TurboQuant 在对比运行速度时,用自己的 NVIDIA A100 GPU 去碾压被限制在单核 CPU 且关闭多线程的 RaBitQ Python 翻译版代码(这段 Python 代码甚至还是 TurboQuant 作者自己写完找原作者帮忙 debug 的)。面对如此实锤的「田忌赛马」式跑分造假,Daliri 的回应令人叹为观止:他表示「运行时基准测试对我们的研究结果无关紧要」。
+ P8 D( E0 Y. c( w& p" N按照 TurboQuant 团队的逻辑,他们的主要贡献在于压缩质量的权衡,而不是具体的加速比,因此就算把和 RaBitQ 的速度对比全删了,也不影响论文的科学价值。评论区质疑如果不重要,当初又何必处心积虑地搞出一套不对等的硬件测试,并把「速度碾压对手」的结论堂而皇之地写进论文里呢?
! v9 P- d; Y) ?. {( p7 C( K. s; r$ J( Q最后,Daliri 还在回应中抱怨了原作者的「发难时机」,声称 TurboQuant 从 2025 年 4 月就在 arXiv 上公开了,RaBitQ 作者明明有一年的时间通过学术渠道沟通,却偏偏等到论文获得广泛关注后才出来指责。这不仅完全无视了 RaBitQ 团队提供的「2025 年 5 月私下沟通邮件记录」,还隐隐流露出一股「你就是想蹭我热度」的幽怨。/ ~5 Q2 e( s$ O+ J
2 S: Q, ~! L* C在 OpenReview 平台上,当初给 TurboQuant 打出高分的审稿人站出来表达了强烈的不满。这位审稿人明确指出,他在评审阶段就已经察觉到了两者的相似性,并「强烈建议」作者在正文中充分讨论 TurboQuant 与 RaBitQ 在设计选择上的差异。然而,作者们在最终的 Camera-ready 中不仅没有进行有意义的探讨,反而仅仅在实验部分提了一次 RaBitQ,甚至把原本正文中对 RaBitQ 已经很不完整的描述直接塞进了附录。
1 t) F+ q4 o& i# l) {5 b& O) B, s
2 p: Y0 O0 F% E更让社区感到不适的是这背后折射出的大厂傲慢。一位研究者在公开评论中指出,这是一个令人沮丧的现状:做基础奠基性工作的独立研究者或学术团队往往无人问津,而手握巨大影响力的科技巨头(如谷歌)只需将这些底层逻辑稍微包装一下,配合强大的 PR 机器,就能瞬间打造出一个「革命性突破」的学术神话,甚至能以此撬动百亿美元的股票市场。
9 T0 F9 n7 S( Y* N& R4 e5 m3 m3 e. b+ n0 p" m
在这个过程中,如果不是原作者顶着压力、拿着详实的邮件记录和代码证据出来「刚正面」,那些被刻意淡化的技术传承、被错误定性的理论成果、以及单核 CPU 战顶级 GPU 的荒诞对比,就会在大厂千万级的曝光量下固化为新的「行业常识」。
2 V) M% C6 c; V' R$ b0 o e6 |正如 RaBitQ 一作高健扬在声明文末所写:「一篇论文被 Google 以数千万曝光量推向公众,在这种体量下,论文中错误的叙事不需要主动传播,只需要不被纠正,就会自动成为共识。」) K+ K3 _6 i/ J- Z! h1 a1 a2 G
3 I2 z+ h2 w( I纵观整起事件,TurboQuant 在技术层面确实为 LLM 的内存优化提供了一个极具商业价值的工程解法,这也许是它能被 ICLR 接收并在工业界引发地震的原因。
5 O5 H0 r9 |8 n; s5 q9 v9 O然而,科学研究从来都是建立在同行间诚实、透明的交流与接力之上。当「跑分造假」可以被轻描淡写地解释为「与核心结论无关」,当「忽视先行研究」可以用「行业惯例」来搪塞,这伤害的不仅仅是某一个学术团队的感情,更是整个 AI 研究社区赖以生存的信任基石。' b5 {. x1 @0 [ l2 `+ L& {" N
4 t0 g6 y3 \7 A9 Y这场风波目前仍在发酵,而它留给学术界和工业界的反思,恐怕比那 900 亿美元的股市震荡要深远得多。6 N) r7 w+ F% b
参考链接:https://www.reddit.com/r/MachineLearning/comments/1s8yni2/d_turboquant_author_replies_on_openreview/
, Y9 w! a% j& N) X; I- D7 F相关阅读:8 p/ K( M) z% c+ a4 z) P' g/ w
谷歌再发“技术澄清”,砸崩全球存储股的论文陷争议' V* D7 \5 c2 y! p3 x1 a* M
|