|
|
近日,中国移动(96.620, 0.64, 0.67%)研究院联合中国科学院沈阳自动化研究所、中国科学院大学等单位,在国际期刊《Complex & Intelligent Systems》发表论文《A general learning rate improvement strategy for deep neural networks training》(影响因子4.6)。该研究聚焦深度神经网络训练中的关键基础问题——学习率调度,提出一种面向多类优化器的通用学习率改进策略,在降低超参数依赖的同时,兼顾训练效率、收敛稳定性与模型性能提升,为深度模型高效训练提供了新的技术思路。7 j4 \% d9 m$ K
* i( U$ `# v1 A7 d0 |: g
! b4 ]8 B6 K+ h在深度神经网络训练过程中,学习率直接影响参数更新步长,是决定模型能否高效收敛的重要因素。学习率过小,容易导致训练缓慢;学习率过大,则可能引起损失震荡、陷入局部最优,甚至训练失败。尽管当前已有固定式、衰减式、周期式等多种学习率调度方法,但普遍存在对训练阶段特征考虑不足、关键超参数较多、与 Adam 等自适应优化器兼容性有限等问题,制约了其在复杂模型训练中的进一步应用。' E3 Z5 Q4 H* Q% |
针对上述问题,论文提出了一种通用学习率调度策略,将神经网络训练过程划分为“预热—保持较大学习率—后期衰减”三个阶段,并构建统一的学习率变化表达式 Expw。该方法能够根据训练阶段特征自动调整学习率变化趋势,在保留较少超参数的前提下,更好匹配模型从快速逼近分类边界到后期稳定收敛的全过程。同时,论文还围绕自适应优化器的适配问题进行了理论分析,给出了所提调度策略在 Adam 优化器上的收敛性证明,进一步增强了方法的通用性与理论支撑。; b9 b9 X' q- ?, Y$ T
论文截图5 b, Q' M/ x w7 l( G6 v' r
8 p" Q+ K) a3 v- ~( M3 T: s通用学习率调度策略示意
5 R& w6 D6 u6 p+ j为验证所提方法的有效性,论文从理论分析与实验评测两个层面展开系统研究。一方面,作者在凸优化与非凸优化问题上对 SGD、Adam 等优化器的收敛过程进行了可视化分析;另一方面,在 CIFAR10、CIFAR100、Tiny-ImageNet-200 和 ImageNet 等常用数据集上,围绕 SGD、Adam、RAdam、AdamW 等优化器,对比了 FixedLR、StepLR、CosineLR、CyclicLR、OneCycleLR 等主流学习率调度策略。实验结果表明,所提方法在不同模型、不同优化器和不同复杂度数据集上均展现出较好的先进性与鲁棒性,尤其在复杂数据集和自适应优化器设置下,仍能保持稳定收敛与较优性能。
3 |1 `$ p9 q2 S z9 d5 m3 B, W+ M1 n; Z
不同学习率调度策略对比实验结果
0 l7 ^2 _+ F/ u2 O9 [6 ?
) K4 @& p7 N/ e1 ^所提方法在典型模型与数据集CIFAR10上的性能对比结果/ q, h0 u& ]5 H2 ^8 K- M
该研究从深度学习训练中的基础机制出发,针对学习率调度这一长期存在但又高度依赖经验的问题,提出了兼具理论依据与工程实用价值的改进方案。相关成果有望为视觉模型训练、通用深度网络优化以及大模型训练过程中的参数调度提供更稳定、更高效的基础支撑,也为后续构建低门槛、强鲁棒的训练优化工具提供了参考。
' e1 M. B3 a4 c$ a- A- y# L% c8 e8 }- j/ l% c( J1 |; F/ Z( W
|
|