|
|
北京时间2月13日,谷歌发布了Gemini3DeepThink的重大升级,作为专门用于复杂任务的推理模式,DeepThink旨在解决科学、工程领域的诸多挑战。
+ Z/ I% C/ F$ @. J H值得一提的是,去年9月加入谷歌DeepMind的清华物理系知名研究者姚顺宇(ShunyuYao)也是这次DeepThink新模型的核心参与者,他在今天发帖号召大家体验新模型。* d" @. d& F0 I
, @# I+ J* W( N U0 ~! C# L* B
1 j- V# X5 W2 ]谷歌CEO桑达尔·皮查伊(SundarPichai)发帖表示,“我们与科学家和研究人员紧密合作,对DeepThink进行了改进,以应对棘手的现实挑战。”这些挑战往往缺乏明确的指导原则或唯一的正确答案,数据也常常杂乱无章或不完整。DeepThink将科学知识与日常工程实践相结合,推动实际应用。
2 S: Z# I% P# M' W. e n, M从数据来看,这一模型在多项基准测试中创下新纪录,超越了头部独角兽旗下的ClaudeOpus4.6和GPT-5.2,也超越了自家的Gemini3ProPreview。
2 J; S) Z4 M& w$ T. ^0 m: W t3 j' ~具体来说,在“人类最后的考试”测试中DeepThink取得了48.4%的成绩(不使用工具的情况下),刷新该测试的最佳纪录。而ClaudeOpus4.6的成绩为40%,OpenAI的GPT-5.2成绩为34.5%。
; Q, N" ^. c' r M9 @, D在ARC-AGI-2测试中,DeepThink取得了前所未有的84.6%的成绩,之前最强模型的得分在60%-70%之间,ClaudeOpus4.6的成绩是68.8%。在竞技编程基准测试平台Codeforces中,DeepThink的Elo评分3455分,这一分数相当于在全球编程能力上能排进前8。& s( _# b. {4 z$ i' o& C. W8 |
此外,Gemini3DeepThink在化学和物理等科学领域表现出色。谷歌提到,在2025年国际物理和化学奥林匹克竞赛的笔试部分这一模型取得了金牌级别的成绩。) s* h- Z! J# {7 l
去年,谷歌已证实DeepThink模式的定制版本能攻克诸多高难度推理难题,在国际数学和编程锦标赛中达到金牌水准。而这次升级则让DeepThink模式更进一步支持研发人员开展研究级(research-level)的数学探索工作。
* D J; `( B7 N' f在博客中,谷歌展示了一些早期测试用户使用最新版DeepThink的成果。
: |8 Q/ l4 k8 g5 x罗格斯大学的数学家LisaCarbone致力于研究高能物理学界所需的数学结构,以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据,她利用DeepThink技术审阅了一篇高度专业的数学论文。DeepThink成功地识别出了一个细微的逻辑缺陷,而这个缺陷此前在人工同行评审中均未被发现。
* K. N9 O9 @9 g. S% p+ |& XDeepThink还可以用来优化复杂晶体生长的制备方法,用来探索新的半导体材料,在杜克大学的案例中,其设计的方案培育出了尺寸超过100微米的薄膜,技术指标超过此前所有方法。
, h& ?% n: w- B除了其最先进的性能外,DeepThink还旨在推动实际应用,使研究人员能够解释复杂的数据,使工程师能够通过代码对物理系统进行建模。例如,DeepThink对图纸进行分析,对复杂的形状进行建模,并生成文件,通过3D打印创建物理对象。
. x$ h: ]. d) j! @% {) i在谷歌官宣评论区中,不少从业者震惊于ARC-AGI-2测试得分能达到84.6%。作为参考,大多数人在这类抽象推理题上都很难达到80%的正确率。
. [$ S7 R" g q% T- U1 j3 m“如果这个模型在识别新模式(而不仅仅是记忆)方面真的达到了这样超人的水平,我们就应该停止称它为聊天机器人,而应该称它为外星智能。”一位AI从业者感慨,Codeforces上的Elo等级是3455也简直就是“传奇大师”级别了。
; u3 \1 {0 i. N/ x9 w( z; f“真正让人惊讶的是,DeepThink竟然发现了一篇经过同行评审的数学论文中,人类审稿人都忽略的逻辑缺陷。那不是工具,那是合作者。我们已经跨越了人工智能辅助研究人员和人工智能验证研究人员工作的界限。”一位谷歌前工程师评论道。
4 P0 J* R; n* O" f6 n谷歌表示,DeepThink现已在Gemini应用中上线,目前GoogleAIUltra订阅用户可以使用。此外,谷歌首次通过GeminiAPI向部分研究人员、工程师和企业开放DeepThink的使用权限。 |
|