|
|
近日,中国移动(96.620, 0.64, 0.67%)研究院联合中国科学院沈阳自动化研究所、中国科学院大学等单位,在国际期刊《Complex & Intelligent Systems》发表论文《A general learning rate improvement strategy for deep neural networks training》(影响因子4.6)。该研究聚焦深度神经网络训练中的关键基础问题——学习率调度,提出一种面向多类优化器的通用学习率改进策略,在降低超参数依赖的同时,兼顾训练效率、收敛稳定性与模型性能提升,为深度模型高效训练提供了新的技术思路。
9 ]3 P% r; z7 J2 \! }4 H l6 V1 r- b- j
7 v- K' V6 ^- ]在深度神经网络训练过程中,学习率直接影响参数更新步长,是决定模型能否高效收敛的重要因素。学习率过小,容易导致训练缓慢;学习率过大,则可能引起损失震荡、陷入局部最优,甚至训练失败。尽管当前已有固定式、衰减式、周期式等多种学习率调度方法,但普遍存在对训练阶段特征考虑不足、关键超参数较多、与 Adam 等自适应优化器兼容性有限等问题,制约了其在复杂模型训练中的进一步应用。
% A" _$ y, G! m6 L; |针对上述问题,论文提出了一种通用学习率调度策略,将神经网络训练过程划分为“预热—保持较大学习率—后期衰减”三个阶段,并构建统一的学习率变化表达式 Expw。该方法能够根据训练阶段特征自动调整学习率变化趋势,在保留较少超参数的前提下,更好匹配模型从快速逼近分类边界到后期稳定收敛的全过程。同时,论文还围绕自适应优化器的适配问题进行了理论分析,给出了所提调度策略在 Adam 优化器上的收敛性证明,进一步增强了方法的通用性与理论支撑。) u& C s/ [( B2 b$ B+ y9 B( M
论文截图
3 T( O$ ^; z4 L4 w p; \9 m5 Z2 N3 A9 \# n
通用学习率调度策略示意
: d/ A% W6 L+ l; n" S, |9 E为验证所提方法的有效性,论文从理论分析与实验评测两个层面展开系统研究。一方面,作者在凸优化与非凸优化问题上对 SGD、Adam 等优化器的收敛过程进行了可视化分析;另一方面,在 CIFAR10、CIFAR100、Tiny-ImageNet-200 和 ImageNet 等常用数据集上,围绕 SGD、Adam、RAdam、AdamW 等优化器,对比了 FixedLR、StepLR、CosineLR、CyclicLR、OneCycleLR 等主流学习率调度策略。实验结果表明,所提方法在不同模型、不同优化器和不同复杂度数据集上均展现出较好的先进性与鲁棒性,尤其在复杂数据集和自适应优化器设置下,仍能保持稳定收敛与较优性能。1 {- `" Q' E& T# \. v1 d
+ h1 h8 |6 n9 z4 ~不同学习率调度策略对比实验结果
[) j2 n2 U& c( R
[ U8 b! T3 a$ L$ B8 c所提方法在典型模型与数据集CIFAR10上的性能对比结果
: ]3 g- }; ?+ x0 p v/ F该研究从深度学习训练中的基础机制出发,针对学习率调度这一长期存在但又高度依赖经验的问题,提出了兼具理论依据与工程实用价值的改进方案。相关成果有望为视觉模型训练、通用深度网络优化以及大模型训练过程中的参数调度提供更稳定、更高效的基础支撑,也为后续构建低门槛、强鲁棒的训练优化工具提供了参考。
0 D: l2 i# \* [1 L( M- U" F
3 h% j% H( D5 h. I |
|