找回密码
 立即注册
查看: 262|回复: 5

美国大模型被中国南北夹击 国产AI疯抢春节档 欲复刻DeepSeek奇迹 ...

[复制链接]

4077

主题

535

回帖

1万

积分

论坛元老

积分
12921
发表于 2026-2-15 22:36:30 | 显示全部楼层 |阅读模式
  全新妙想投研助理,立即体验2 W6 z( ]# |: s0 Y
                                                              犹记龙年春节,爆火的DeepSeek,一度把国内其他大模型“整抑郁”了。今年,互联网大厂和国产大模型公司无不期待复刻DeepSeek的奇迹,赶在春节前密集官宣上新,将新年作为最佳练兵场。
1 {0 o1 w8 y- v9 t- N8 }  2月12日,上海大模型企业MiniMax在MiniMax Agent正式上线新一代文本模型MiniMax M2.5(以下简称“M2.5”),并于2月13日全球开源,支持本地化部署。随后,全球用户迅速在MiniMax Agent上构建1万多个“专家”,且数量仍在快速增长。
8 D; w, O7 F4 q# j1 w: V( c( _$ b  M2.5被称“王炸”,在于其性能几乎逼平由美国AI公司Anthropic开发的模型Claude Opus 4.6,价格却让人目瞪口呆,连当下最火的开源个人AI代理项目openclaw之父彼得·斯坦伯格也忍不住感慨。! o, z1 h$ x- u
F22xXPkfKcfVfFkl.jpg
OpenClaw之父彼得·斯坦伯格转发和评价M2.5,性能比肩Claude Opus 4.6,价格便宜20倍。

: S9 v5 M  Z' k8 a" J3 C: ^5 c3 O  M2.5定位为“原生Agent生产级模型”的产品,能自动写代码、调用工具、分析数据、生成报告。9 w' O( M6 t( t0 d; o
  在编程最硬核的SWE-Bench Verified榜单上,M2.5拿到了80.2%的高分,与Claude Opus 4.6仅有微弱差距。在多语言任务Multi-SWE-Bench上,M2.5超越Claude Opus 4.6拿到第一。9 Z  ^) R' Z5 Q/ Q) `8 b
  针对办公场景,M2.5在Word、PPT、Excel、金融建模等高阶场景中能力出众,在测评框架GDPval-MM与主流模型的对比中,取得了59%的平均胜率。M2.5生成的表格,能将封面、数据源和详细数据分得清清楚楚,格式规整,仿佛出自强迫症员工之手。
) k1 `5 a8 {  w7 j7 E% m hQrv8CAI5SxRzS3D.jpg
M2.5对标美国主流模型毫不逊色。

8 x+ v/ p! |7 x! B2 G  关键在于,能干“重活”的M2.5,其激活的参数量仅10B,在全球同类第一梯队旗舰模型中“体型”最小。; s" n) Q8 Y" [& H# L" R6 ?
  “脑子好使”的同时,M2.5的杀手锏,还在于解决了模型“贵”和“慢”两大痛点。
0 ]7 B" S) `2 O( W  E  M2.5将推理速度干到了100TPS(每秒事务数),是主流模型的约两倍;输入价格约0.3美元/百万Token(模型输入、输出基本单位),输出约2.4美元/百万Token。按每秒输出100Token计算,1美元就能让智能体连续工作一小时,堪称“白菜价”。
$ B+ C% O; N9 \* I% M2 k/ U2 a4 G  在算力短缺的时代,能以颠覆式创新实现模型不降智、不卡顿、体验优,是MiniMax得以持续留在大模型决赛圈牌桌上的核心王牌。! I# V4 S' j# d8 x
  有意思的是,较MiniMax早一天在港交所上市的智谱AI,也在近期发布智谱GLM-5,同样对标Claude Opus 4.6。Claude Opus 4.6可谓受到了中国一南一北两大模型的夹击。
* w( D  W' h' s" ^' A1 l% e  智谱GLM-5在编程和智能体能力上取得了开源模型佳绩。有开发者使用后认为,GLM-5在真实编程场景的使用体验已逼近Claude最强模型,而Claude的编程能力在业内处于第一梯队。在全球权威的Artificial Analysis榜单中,GLM-5位居全球第四、开源第一。
& g7 j1 O1 m# P( r6 u+ @2 {3 j! f  智谱将GLM-5形容为“系统架构师”,也就是说,AI大模型未来不再只满足于写代码完成某一项功能,而是要像工程师一样建构系统,甚至将功能任务分配给不同智能体完成。
4 o% B9 r9 K5 d' S+ [, a ZhTNgez4E99o8988.jpg
在代理编程测试上,智谱GLM-5略胜Claude一筹。
3 i3 B+ R5 g: N: m  {" R# I8 }
  另外,千问也在2月10日发布了新款图像生成模型Qwen-Image 2.0,支持1000个词元的超长指令,同时推理能力也更强。$ m; i* _4 ^* Q
  几乎同一时间,字节跳动也发布了同类模型Seedream 5.0,文生图能力再次跨前一步。“以前用AI生成图像有一个缺陷,受限于推理能力,图片中的汉字经常‘牛头不对马嘴’或者直接乱码。”千问开发团队告诉记者,随着指令理解和推理能力的增强,AI图片生成的“汉字难题”将成为历史。
4 c1 p2 L2 R% M# H$ \  除了文生图、文生视频等多模态模型之外,最基础的大语言模型也“大有进步”。近日,DeepSeek悄然上线了一款新模型,虽然并非是万众期待的V4,但同样令人惊喜。
3 ^# n; a" u& W/ c6 @  这款更新模型虽然不具备多模态识别能力,但将上下文处理能力提升至100万词元,相当于可以一次性阅读理解全套《三体》共计约90万字。一名智能体开发者告诉记者:“目前支持上下文理解百万级词元的模型不多,比如谷歌的Gemini和Anthropic的Claude,DeepSeek这次更新也算是‘上车’了。”
1 H* x6 H8 m2 c# f  b; \$ {( J5 l+ J  据了解,这一波大模型“上新潮”远未停止,豆包2.0、千问3.5等旗舰模型将于近期发布。
) A8 o$ q4 B  X9 D" {! A' y8 r4 {
cbHUVuaS1bBUabay.jpg
+ s' ^1 y. Q+ B
$ K8 E  ^8 l. w# [$ v8 ~8 V

0 W+ h3 r& J$ _+ L! c(文章来源:上观新闻)
集群智慧云科服专利申请服务

74

主题

2196

回帖

6841

积分

论坛元老

积分
6841
发表于 2026-2-15 22:48:02 | 显示全部楼层
xinwen
集群智慧云科服SCI/SSCI/EI期刊发表服务

30

主题

440

回帖

1420

积分

等待验证会员

积分
1420
发表于 2026-2-15 23:00:29 | 显示全部楼层
当某个行业占据全球60%的市场份额时,这个行业就变得无利可图。从钢铁到光伏,从掘进机到港机,从服装到儿童玩具,从汽车到高铁,所有的故事最后都是低价倾销。现在存储芯片,韩国两大巨头赚得是盆满钵满,假如有一天长江存储迎头赶上,那么,这个行业就将完蛋,就如同液晶面板一样。

4077

主题

535

回帖

1万

积分

论坛元老

积分
12921
 楼主| 发表于 2026-2-15 23:12:43 | 显示全部楼层
蛇年吧

74

主题

2196

回帖

6841

积分

论坛元老

积分
6841
发表于 2026-2-15 23:24:34 | 显示全部楼层
利好中石油

30

主题

440

回帖

1420

积分

等待验证会员

积分
1420
发表于 2026-2-15 23:36:38 | 显示全部楼层
又一个行业变成白菜价了。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表