外观
学习率
约 360 字大约 1 分钟
一、 什么是学习率?
- 定义:学习率(Learning Rate)是梯度下降算法中的超参数,用于控制每次参数更新的步长。
- 数学表示:在权重更新公式中,学习率通常记为 η,如:
W←W−η⋅∂W∂L
其中 L 为损失函数,∂W∂L 为权重梯度。
二、 学习率的用处
- 控制收敛速度:
- 较大的学习率:参数更新步长较大,可能加快收敛速度,但也可能导致震荡或不收敛。
- 较小的学习率:更新步长较小,收敛稳定但速度较慢,甚至陷入局部最优。
- 平衡稳定性与效率:
- 合理的学习率需在“快速收敛”和“避免震荡”之间权衡。
- 影响泛化能力:
- 过大的学习率可能跳过全局最优解,导致模型泛化性能下降。
三、 学习率的一般取值范围
- 常见范围:
- 典型值:10−5(0.00001)到 10−1(0.1)。
- 深层网络:通常更小(如 10−4 到 10−2),以缓解梯度爆炸/消失问题。
- 简单任务(如线性回归):可尝试稍大的值(如 0.01 到 0.1)。
- 动态调整策略:
- 学习率预热(Warmup):训练初期逐步增大学习率。
- 学习率衰减(Decay):随着训练进程逐步降低学习率,如指数衰减或分段常数衰减。
更新日志
2025/8/18 00:31
查看所有更新日志
bd1d0
-迁移目录于12cc8
-update于
版权所有
版权归属:NateHHX