|
|
近日,中国移动(95.980, -0.77, -0.80%)研究院在人工智能基础研究领域取得新进展:中国移动研究院联合北京邮电大学、南洋理工大学、北京航空航天大学等单位完成的论文《HEDP: A Hybrid Energy-Distance Prompt-based Framework for Domain Incremental Learning》被2026年第43届国际机器学习大会(ICML 2026,CCF-A)录用;参与的多模态大模型具身地理定位评测论文《ERGeoBench: A Comprehensive Benchmark for Embodied Reasoning and Geo-localization in Multimodal Large Language Models》同时被录用。两篇论文分别面向开放环境下模型持续学习和多模态具身智能评测两个前沿方向,体现了研究院在人工智能基础算法与评测体系建设方面的持续积累。
1 `) O( ?5 k- V+ d0 h- a2 X
& |6 N7 m" S( f' r/ T4 T9 d9 `6 ]9 I6 }
2 u% p. Z5 q+ z6 C7 }( J+ Q
HEDP研究聚焦域增量学习这一关键问题。随着人工智能模型在自动驾驶、智能终端、工业视觉、网络运维等真实场景中广泛应用,模型需要在环境、设备、天气、风格和数据分布持续变化的条件下保持稳定性能。域增量学习希望模型在不重新训练全部参数、不回放历史数据的情况下,顺序学习新领域知识,并同时保持对已知领域和未知领域的推理能力。该问题对于降低大模型持续适配成本、提升开放环境鲁棒性具有重要意义。
& y& n: l6 ]+ q% z) b! u. x$ U$ k2 A- v" T: X$ X
现有方法仍面临两方面挑战:一是不同领域数据分布不断变化,模型顺序学习新领域时容易覆盖旧领域知识,产生灾难性遗忘;二是已知领域和未知领域之间存在特征重叠,单纯依赖特征距离或单一领域提示模型进行推理,容易出现领域归属判断不准、提示过拟合和跨领域泛化不足等问题。特别是在测试样本来源未知的情况下,如何既保留旧知识,又准确选择和融合可迁移的领域知识,是域增量学习走向真实开放场景的核心难题。
( h" g+ Z, x* w& X2 C3 L5 S7 M% a" |$ r9 D. o- B- [
6 B6 E$ y6 ^4 y8 ^4 s, Z: q' {3 a ~. b- X: @3 t
针对上述问题,论文提出混合能量—距离提示学习框架HEDP,从亥姆霍兹自由能获得启发,将领域数据分布理解为特征空间中的能量景观。方法首先设计能量正则化损失,对不同领域提示模型产生的能量分布进行约束,使同一领域样本在对应提示模型下呈现更低、更稳定的能量响应,从而压缩领域内能量波动、拉开领域间边界,降低领域混淆。其次,论文提出混合能量—距离加权推理机制,在推理阶段同时利用提示模型的能量置信信息和共享特征空间中的距离信息,对多个领域提示模型的预测结果进行动态加权融合,避免单一距离度量或单一提示模型带来的误判。4 s2 I- y0 x# ^. D6 K7 Q
- \' X" D2 F& A- K' f9 p+ x
& m5 n. h7 L( R, ^
: E- L$ G, N3 h9 }为验证方法有效性,论文在CDDB-Hard、DomainNet和CORe50三个典型域增量学习基准数据集上开展实验,覆盖深度伪造检测、多风格图像分类和跨环境物体识别等不同任务,并与L2P、DyTox、ESN、MoP-CLIP、CP-Prompt等多类先进方法进行对比。实验结果表明,HEDP在不保留历史样本的条件下,在已知领域任务中保持较高平均准确率,并将CDDB-Hard上的平均遗忘率降低至0.08%;在未知领域泛化任务中,HEDP相较当前先进方法在CDDB-Hard、DomainNet和CORe50上分别取得1.76%、3.12%和2.57%的性能提升,其中CORe50未知领域平均准确率达到94.37%。! y2 t1 f% Z+ |- d& x+ }3 F
: [- g: }, G$ J% e; T: D4 C1 X
5 ^ s6 N" A- Z3 Q2 u
4 a; X0 {9 v t* ~" C) p0 [该研究的学术贡献在于,将物理启发的能量建模引入域增量学习中的领域表征与领域选择过程,提出了兼顾知识保持和开放泛化的新型提示学习范式。相比依赖历史样本回放或单纯特征聚类的方法,HEDP在降低存储成本和潜在数据安全风险的同时,提升了模型对动态分布和未知环境的适应能力。相关成果有望为持续学习、开放世界识别、多模态模型低成本适配以及面向真实复杂场景的AI模型部署提供新的方法参考。+ v4 R# b: }) W. o
& X' I* B# J! P
同期录用的ERGeoBench工作面向多模态大模型具身地理定位能力评测。现有地理定位研究多将任务视为静态图像识别问题,模型通常基于单张图片或一次性全景图直接推断国家、城市或坐标,缺乏主动观察、视角切换和证据积累机制,难以刻画人类在真实环境中通过转向、缩放、观察标识物并综合空间常识逐步定位的过程。围绕这一问题,ERGeoBench构建了包含2207个全球街景全景样本的评测基准,将全景图转化为可交互的第一视角观察环境,支持智能体通过旋转、俯仰和缩放等动作主动获取信息。/ C) X& Y7 T6 K8 x8 R7 U. D
& ?1 w5 s# n9 s9 _3 l+ Z, ?( D' Z) L% o8 w
ERGeoBench设计了单视角、多视角和具身视角三类任务设置,并从基础感知、空间意识、常识推理和地理定位四个维度开展细粒度诊断评测。论文对9个主流闭源和开源多模态大模型进行了系统评估,结果显示,当前模型在高层语义地理定位方面具备一定能力,但在低层视觉感知、跨视角空间一致性维护以及连续观察下的证据整合方面仍存在明显不足。该工作为具身智能体的地理定位推理能力提供了统一、可复现的评测平台,也为后续构建更接近人类认知方式的位置感知智能体提供了实验基础。
, P2 \4 D' F: I
; t& j% Y2 Y7 {/ g- P) Z+ }/ h4 L. d4 B
7 F# S) L1 `8 `* h8 r* S* l# B8 }
, c- m6 I% y0 U% b, K' q
两篇论文同时入选ICML 2026,展示了中国移动研究院在持续学习、开放场景泛化、多模态大模型评测和具身智能等方向的研究进展。下一步,研究院将继续围绕大模型持续进化、低成本适配、可信训练推理和智能体能力评测等关键问题开展攻关,推动人工智能基础研究成果向通信网络智能化、行业视觉感知、空间智能服务和智能终端应用等场景转化。9 O0 l4 t8 }4 V7 X
/ n1 }7 \6 p% }% L& K" X
+ h$ ]4 N6 f v, k8 }$ W4 c2 Q
3 G. C- q# b, S0 [+ F% _& b+ M, M. {' S' A N; \
) Z8 k# w+ h; u x# _" s$ y% @: T3 O; u4 \ T1 @! I1 ~$ f
|
|