找回密码
 立即注册
查看: 273|回复: 0

10倍速的一夜:智谱GLM-5官宣,MiniMax与DeepSeek的暗战

[复制链接]

1850

主题

290

回帖

5700

积分

论坛元老

积分
5700
发表于 昨天 22:36 | 显示全部楼层 |阅读模式
DdkwDd5t52pMxDGg.jpg
9 n% {, _* `1 A" i出品 |《态度》栏目    作者 | 袁宁
4 {2 X2 M  f( e! y    编辑 | 丁广胜
( G3 G, H6 s5 h" Q/ g' u
/ d; M* N# R/ X4 E5 l' ~2月11日深夜到12日清晨,短短几个小时内,中国三家知名的大模型公司几乎同时完成了一轮关键更新:
9 g2 I5 y$ V0 W6 R9 i# v# T
# C) u5 i- G( R2 |, W1 G智谱正式发布 GLM-5,MiniMax M2.5在产品中悄然上线体验,DeepSeek 也启动新一轮能力升级。
; a# d3 n0 W' t1 H& G7 M智谱 GLM-5:从“写代码”到“搞工程”
2 A/ B: p' F) E9 t8 n9 i2月12日,智谱正式官宣上线并开源新模型 GLM-5。同时确认:此前在 OpenRouter 上爆火的匿名模型 Pony Alpha,正是 GLM-5。: m1 S9 A! D/ O# N  |7 S
在匿名测试阶段,这个模型已经被全球开发者当作真实生产工具使用。有人用它做横版解谜游戏,有人搭建 Agent 交互世界,也有人直接基于它开发出论文版“抖音”等完整应用形态。模型在没有品牌背书的情况下完成真实市场验证,本身已经说明了能力层级的变化。+ j* A4 _( I/ c) i$ V9 ^- C5 I
AJ8osorrou1SR78j.jpg
$ C3 R7 f" o) O) t0 F智谱对 GLM-5的定位非常明确:它不是一个聊天模型,而是一个 Agentic Engineering 基座模型- `  o2 K: _4 b; ~. D; b
过去两年,大模型的主流叙事是“写代码”“写前端”;而现在,行业共识正在转向:模型需要完成完整工程与复杂任务,即从「Vibe Coding」走向「Agentic Engineering」。GLM-5正是这一阶段的代表产物。
. D9 Z5 B/ v6 z3 |! Q, _ MaMofSv6M7MFad7c.jpg
: T! R5 z% Z! l5 L  j# K与上一代相比,GLM-5不再满足于生成一个漂亮 demo 或一段 Python 脚本,而是为稳定交付生产级结果而生。在真实编程场景的使用体感上,GLM-5已经被认为逼近当前行业天花板 Claude Opus 4.5。
0 e6 ]- F6 j7 z4 |7 u4 m在底层能力上,GLM-5进行了全面扩展:" f# Z# T; B+ e- I) c* q
● 参数规模: 从上一代的355B(激活32B)扩展至744B(激活40B)。. O, M5 B+ `5 A% V1 Q# V
● 数据量级: 预训练数据从23T 提升至28.5T。
5 U" N; R/ T  W" Q● 架构创新: 首次集成了 DeepSeek Sparse Attention 机制。这一技术在维持长文本效果无损的同时,大幅降低了模型部署成本,提升了 Token 的生成效率。5 V: C! f: ^- x
● 异步强化学习: 构建了全新的“Slime”框架,让模型能够在长程交互中持续学习,不再是“聊几句就忘”。# k# K( N$ `) y5 r, C4 q! M
VMm3Ae74P1Q3pPCC.jpg " b( b5 M0 _9 V) M7 {& Z% Z
在全球权威的 Artificial Analysis 榜单中,GLM-5位居全球第四、开源第一。
0 G" R$ D: l1 l# ?/ T3 } a9Sr89W5SReEw1S5.jpg
( d& d+ h' }( ]6 q6 y: BGLM-5在编程能力上实现了对 Claude Opus 4.5的对齐,在工程师最看重的 SWE-bench-Verified(软件工程基准测试)中,GLM-5拿下了77.8的高分;在 Terminal Bench 2.0(终端操作能力)中达到了56.2。这两个分数不仅是开源模型的 SOTA(State Of The Art),更直接超越了 Google 的 Gemini 3 Pro。* f$ p+ l1 ^+ C8 w. t5 l/ T
在智谱内部的 Claude Code 评估集合中,GLM-5在后端重构和深度调试等“硬骨头”任务上,比 GLM-4.7平均提升了超过20%。& @1 I; _1 g, }/ E; ?  x. b0 r
X3HizC00wDXRax3D.jpg
- h; ?( ^: p' x/ `& Q$ R  A$ eGLM-5在 Agent 能力上实现开源 SOTA,在多个评测基准中取得开源第一。
- o8 b. Z' U# v3 e; | Fw5ca5A3B61WcKYG.jpg
- S- Z* Y4 m9 p  ?更有意思的是 Vending Bench 2的测试结果。这个测试要求模型在一年期内经营一个模拟的自动售货机业务。GLM-5最终的账户余额达到了4432美元。这意味着它不仅会写代码,还懂得资源管理和长期规划,这种“经营能力”是迈向 AGI 的关键一步。
3 Q6 v$ f$ z5 u& B/ Z4 ^1 {) j0 t Crzr45FRr3j9SjZ4.jpg * t3 Q( e( W; ]  e! A* T
同一夜:MiniMax 与 DeepSeek8 a' |. w2 Y" X1 m0 @
就在智谱官宣的同时,另外两家巨头的布局也在进行。* |8 ~' _+ @  s" _; R+ A- r
昨晚,细心的用户发现,在 MiniMax Agent 产品中,底层模型选项里悄然出现了一个新名字——MiniMax M2.5& f* B" d, W( o8 V$ I/ C4 e7 A
w1s8M1xtQ9i8d1Px.jpg + ^9 s' L$ y# D* S
虽然公司尚未正式官宣,但这显然是一次在产品端的“实弹演习”。据早期测试用户反馈,“M2.5 Agent能力炸裂”,“编程和工具调用又强又便宜”。8 C6 ]3 Q9 F- x( j9 K
WFmtvfMu0tKoFi7F.jpg ! a1 I; X2 ]6 h$ l( z
据我们了解,MiniMax M2.5定位为全球首个为Agent场景原生设计的生产级模型。其编程与智能体性能 (Coding & Agentic)比肩国际顶尖模型,直接对标 Claude Opus 4.6,支持PC、App、跨端应用的全栈编程开发,尤其在 Excel高阶处理、深度调研、PPT等Office核心生产力场景中处于SOTA地位。
8 S3 M, {9 V! b  |9 j同时,M2.5模型激活参数量仅 10B,在显存占用和推理能效比上优势明显,支持 100 TPS 超高吞吐量。2 e- n4 x! X0 e: p! n" E/ q7 m  W  r
此外,就在众人还在猜测DeepSeek V4何时到来时,DeepSeek也在悄然更新。# D1 S8 z4 z* @& @& z' i
我们在昨晚尝试询问 DeepSeek 的最新状态,在关闭“深度思考”和“联网搜索”后查询模型信息时发现,其上下文长度已提升至1M Token(此前为128K),知识库截止日期更新至2025年5月。
% Q8 ]3 R) l% y. b XrJyrZYI6enyuuVG.jpg
1 _7 n: Q) R7 d  S. S* \& [5 Q' k; F2026年,注定不会平静。5 V% Q! T. V2 S8 q4 r2 m3 z
智谱用 GLM-5证明了中国模型在复杂工程能力上已能与世界最强掰手腕;MiniMax 在产品端极速狂奔,抢占用户心智;而所有人依旧在等待 DeepSeek 出招。
& B2 w6 C. n# N$ h8 z6 P
' B& Y' g! n  p0 D( y, J对于此时此刻的身处浪潮中的我们来说,唯一的选择就是——跟上速度。毕竟,在这个10倍速的夜晚过后,掉队可能只是一瞬间的事。
. l% v# d( Q& y+ i
- A- C; Z6 P$ s                     kUMNYU4mMPIQNgnr.jpg
集群智慧云科服专利申请服务
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表