loss函数

约 888 字大约 3 分钟

一、损失函数的定义

损失函数（Loss Function）是神经网络中用于量化模型预测值与真实值之间差异的数学工具。其本质是通过数值计算模型输出与真实标签的偏差程度，为参数优化提供方向。

核心作用：通过将预测误差转化为标量值，衡量模型在当前参数下的性能质量。
功能定位：位于神经网络的前向传播与反向传播之间，前向传播生成预测值后，损失函数计算差异值，并将其用于反向传播的梯度更新。

二、损失函数的用途

1. 指导模型优化

通过最小化损失函数值，驱动模型参数（如权重和偏置）调整，使预测结果逼近真实值。例如梯度下降算法依赖损失函数的梯度信息更新参数。

2. 评估模型性能

损失值直接反映模型在训练集或测试集上的预测精度。例如分类任务中交叉熵损失越小，预测概率分布与真实分布越接近。

3. 防止过拟合

结合正则化项（如L1/L2正则化），损失函数可控制模型复杂度，抑制对噪声数据的过度拟合。

4. 多任务适配

不同任务需选择特定损失函数：

回归任务：常用均方误差（MSE）、平均绝对误差（MAE）。
分类任务：交叉熵（Cross-entropy）为主流选择。

三、损失函数的数学公式

1. 均方误差（Mean Squared Error, MSE）

适用于回归任务，通过平方放大大误差的惩罚：

\text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_{\text{true}}^{(i)} - y_{\text{pred}}^{(i)})^2

特点：对异常值敏感，梯度形式简单易优化。

2. 交叉熵损失（Cross-entropy Loss）

适用于分类任务，衡量概率分布差异：

\text{CE} = -\frac{1}{n} \sum_{i=1}^n \sum_{c=1}^C y_{\text{true},c}^{(i)} \log(y_{\text{pred},c}^{(i)})

特点：对预测概率的微小变化敏感，尤其适用于多分类问题。

四、偏导数与损失函数的关系

1. 梯度计算基础

损失函数对模型参数的偏导数（梯度）是反向传播的核心：

\frac{\partial L}{\partial w} = \frac{\partial L}{\partial y_{\text{pred}}} \cdot \frac{\partial y_{\text{pred}}}{\partial w}

其中， $w$ 为权重， $L$ 为损失值， $y_{\text{pred}}$ 为模型输出。

2. 梯度下降中的角色

参数更新公式：

w_{\text{new}} = w_{\text{old}} - \eta \cdot \frac{\partial L}{\partial w}

$\eta$ 为学习率，梯度方向决定参数调整幅度。

不同损失函数的梯度特性：
- MSE：梯度与误差成正比，但在激活函数（如Sigmoid）饱和区（输入极大/极小）梯度趋近于0，导致更新缓慢。
- 交叉熵：梯度仅与误差相关，不受激活函数导数影响，更新速度更快，尤其适合深度网络训练。

3. 优化效率对比

MSE的局限性：在分类任务中易陷入局部最优，且梯度更新受激活函数非线性特性制约。
交叉熵的优势：通过消除激活函数导数的影响，提升训练稳定性和收敛速度。

五、总结：

损失函数是神经网络训练的“指南针”，其设计与选择直接影响模型性能。理解其数学形式及梯度特性，有助于合理选择损失函数并优化训练过程。

更新日志

2025/3/23 01:17

查看所有更新日志

cd348-update于 2025/3/23

版权所有

版权归属：NateHHX

许可证：署名 4.0 国际 (CC-BY-4.0)

1.导论

2.搜索问题

经典搜索算法

无信息搜索

启发式搜索

超越经典搜索算法

3.对抗性搜索（博弈）

4.约束满足问题

5.知识推理

6.规划问题

7.机器学习

概况

任务

范式

模型

8.神经网络