梯度下降

约 1012 字大约 3 分钟

一、梯度下降的基本定义

梯度下降（Gradient Descent）是一种基于搜索的优化算法，其核心目标是通过迭代调整模型参数，使损失函数逐步逼近最小值。在神经网络中，损失函数衡量模型预测值与真实值的差异，梯度下降通过计算函数在当前位置的梯度（偏导数向量），沿梯度反方向更新参数以降低损失值。

核心特性：

迭代机制：参数更新以循环方式进行，直至收敛
方向性：沿损失函数下降最快的方向调整参数
适应性：支持处理高维、非凸的复杂损失函数

二、梯度下降的核心用途

1. 参数优化

通过调整神经网络中的权重（Weights）和偏置（Biases），使模型输出逼近真实标签。例如在图像分类任务中，梯度下降可优化卷积核参数以提升特征提取能力。

2. 模型训练加速

批量处理：通过小批量样本计算梯度，平衡计算效率与收敛稳定性
并行计算：利用矩阵运算加速大规模数据训练

3. 防止过拟合

结合正则化项（如L2正则化），梯度下降在降低损失的同时约束参数规模，提升泛化能力。

4. 多场景适配

适用于监督学习（如分类/回归）、无监督学习（如聚类）以及强化学习场景。

三、数学公式与运算逻辑

1. 参数更新公式

梯度下降的核心公式为：

w_{\text{new}} = w_{\text{old}} - \eta \cdot \nabla L(w)

其中：

$w$ ：待优化的参数（如权重）
$\eta$ ：学习率（Learning Rate），控制更新步长
$\nabla L(w)$ ：损失函数 $L$ 对参数 $w$ 的梯度向量

2. 梯度计算示例（均方误差损失）

对于损失函数 $L = \frac{1}{n}\sum_{i=1}^n (y_i - \hat{y}_i)^2$ ，权重 $w$ 的梯度为：

\frac{\partial L}{\partial w} = \frac{2}{n}\sum_{i=1}^n (\hat{y}_i - y_i) \cdot x_i

其中 $x_i$ 为输入特征， $y_i$ 为真实标签。

四、偏导数与梯度下降的关系

1. 梯度构成

梯度是由偏导数组成的向量。对于 $n$ 维参数空间，梯度可表示为：

\nabla L = \left( \frac{\partial L}{\partial w_1}, \frac{\partial L}{\partial w_2}, \dots, \frac{\partial L}{\partial w_n} \right)^T

每个分量表示损失函数在对应参数方向的变化率。

2. 反向传播中的链式法则

在神经网络中，梯度通过反向传播算法计算：

前向传播：计算各层输出及最终损失
反向求导：从输出层到输入层逐层计算偏导数，利用链式法则传递梯度
参数更新：根据梯度调整各层权重。

3. 几何解释

方向导数：损失函数在特定方向的瞬时变化率
最速下降方向：梯度方向是函数值增长最快的方向，负梯度方向则是下降最快的方向。

五、技术演进与变体

类型	特点	适用场景
批量梯度下降	全样本计算梯度，收敛稳定但计算成本高	小规模数据集
随机梯度下降	单样本迭代更新，速度快但噪声大	在线学习场景
小批量梯度下降	平衡计算效率与稳定性，主流深度学习框架默认选择	大规模训练
动量法	引入历史梯度信息，缓解震荡	非凸优化问题
自适应学习率	Adagrad/RMSprop等算法动态调整学习率	稀疏数据/复杂模型。

六、总结：

梯度下降是神经网络训练的基石技术，通过偏导数计算梯度方向，实现参数高效优化。其变体算法在平衡收敛速度、精度和计算资源消耗方面持续演进，支撑着深度学习模型的广泛应用。

更新日志

2025/8/18 00:31

查看所有更新日志

bd1d0-迁移目录于 2025/8/18
dfb81-update于 2025/6/26
cd348-update于 2025/3/23

版权所有

版权归属：NateHHX

许可证：署名 4.0 国际 (CC-BY-4.0)