中国移动研究院人工智能领域论文被SCI核心期刊《Complex & Intelligent Sys ...

stevenjecy · 发表于 2026-5-25 19:26:30

近日，中国移动(96.620, 0.64, 0.67%)研究院联合中国科学院沈阳自动化研究所、中国科学院大学等单位，在国际期刊《Complex & Intelligent Systems》发表论文《A general learning rate improvement strategy for deep neural networks training》（影响因子4.6）。该研究聚焦深度神经网络训练中的关键基础问题——学习率调度，提出一种面向多类优化器的通用学习率改进策略，在降低超参数依赖的同时，兼顾训练效率、收敛稳定性与模型性能提升，为深度模型高效训练提供了新的技术思路。

在深度神经网络训练过程中，学习率直接影响参数更新步长，是决定模型能否高效收敛的重要因素。学习率过小，容易导致训练缓慢；学习率过大，则可能引起损失震荡、陷入局部最优，甚至训练失败。尽管当前已有固定式、衰减式、周期式等多种学习率调度方法，但普遍存在对训练阶段特征考虑不足、关键超参数较多、与 Adam 等自适应优化器兼容性有限等问题，制约了其在复杂模型训练中的进一步应用。
针对上述问题，论文提出了一种通用学习率调度策略，将神经网络训练过程划分为“预热—保持较大学习率—后期衰减”三个阶段，并构建统一的学习率变化表达式 Expw。该方法能够根据训练阶段特征自动调整学习率变化趋势，在保留较少超参数的前提下，更好匹配模型从快速逼近分类边界到后期稳定收敛的全过程。同时，论文还围绕自适应优化器的适配问题进行了理论分析，给出了所提调度策略在 Adam 优化器上的收敛性证明，进一步增强了方法的通用性与理论支撑。
论文截图

通用学习率调度策略示意
为验证所提方法的有效性，论文从理论分析与实验评测两个层面展开系统研究。一方面，作者在凸优化与非凸优化问题上对 SGD、Adam 等优化器的收敛过程进行了可视化分析；另一方面，在 CIFAR10、CIFAR100、Tiny-ImageNet-200 和 ImageNet 等常用数据集上，围绕 SGD、Adam、RAdam、AdamW 等优化器，对比了 FixedLR、StepLR、CosineLR、CyclicLR、OneCycleLR 等主流学习率调度策略。实验结果表明，所提方法在不同模型、不同优化器和不同复杂度数据集上均展现出较好的先进性与鲁棒性，尤其在复杂数据集和自适应优化器设置下，仍能保持稳定收敛与较优性能。

不同学习率调度策略对比实验结果

所提方法在典型模型与数据集CIFAR10上的性能对比结果
该研究从深度学习训练中的基础机制出发，针对学习率调度这一长期存在但又高度依赖经验的问题，提出了兼具理论依据与工程实用价值的改进方案。相关成果有望为视觉模型训练、通用深度网络优化以及大模型训练过程中的参数调度提供更稳定、更高效的基础支撑，也为后续构建低门槛、强鲁棒的训练优化工具提供了参考。

		自动登录	找回密码
密码			立即注册

中国移动研究院人工智能领域论文被SCI核心期刊《Complex & Intelligent Sys ...

浏览过的版块