ReLU激活函数

约 683 字大约 2 分钟

一、ReLU激活函数定义

ReLU（Rectified Linear Unit，修正线性单元）是一种广泛应用于神经网络中的非线性激活函数。其核心特性是通过对输入信号进行阈值截断，保留正值部分并抑制负值部分，具体表现为：

非线性映射：当输入值 $x>0$ 时，输出 $x$ ；当 $x \leq 0$ 时，输出 $0$ 。这种分段特性使网络能够学习复杂非线性关系。
生物学启发：模拟生物神经元的单侧抑制机制，即只有输入达到一定强度时才会激活。

二、ReLU的用途与优势

1. 解决梯度消失问题

传统激活函数（如Sigmoid、Tanh）在输入极大或极小时梯度趋近于0，导致深层网络难以训练。ReLU在正区间梯度恒为1，有效缓解了梯度消失问题，加速模型收敛。

2. 计算高效性

仅需简单的阈值判断（max(0,x)），计算速度比Sigmoid等函数快6倍以上，尤其适合大规模数据训练。

3. 稀疏激活特性

负输入被抑制为0，约50%神经元处于非激活状态，减少参数依赖，缓解过拟合风险，提升模型泛化能力。

4. 支持深层网络

在CNN、Transformer等架构中，ReLU通过非线性层级叠加，能够提取高阶抽象特征，适用于图像识别、自然语言处理等复杂任务。

三、数学公式

ReLU的数学表达式为：

\text{ReLU}(x) = \max(0, x)

正区间：保留原始输入，维持线性特性（导数为1）。
负区间：输出归零（导数为0），引入非线性。

四、ReLU在神经网络中的位置

1. 典型应用层级

隐藏层：主要作用于卷积层（CNN）或全连接层（Dense Layer）之后，用于引入非线性变换。
特征处理：在卷积神经网络中，常紧随卷积操作后使用，过滤冗余负响应，增强特征有效性。

2. 不适用场景

输出层：分类任务通常使用Softmax，回归任务则选择线性激活函数，避免信息截断。

3. 改进变体

针对“死神经元”问题（负输入长期不更新），Leaky ReLU、PReLU等变体在负区间引入微小梯度，提升鲁棒性。

五、总结：

ReLU凭借其高效性、稀疏激活特性及对深层网络的支持，成为现代神经网络的核心组件。尽管存在局部梯度消失（负区间）等局限，其改进版本与优化策略（如Batch Normalization）进一步扩展了其应用场景。

更新日志

2025/8/18 00:31

查看所有更新日志

bd1d0-迁移目录于 2025/8/18
cd348-update于 2025/3/23

版权所有

版权归属：NateHHX

许可证：署名 4.0 国际 (CC-BY-4.0)

1.导论

2.搜索问题

经典搜索算法

无信息搜索

启发式搜索

超越经典搜索算法

3.对抗性搜索（博弈）

4.约束满足问题

5.知识推理

6.规划问题

7.机器学习

概况

任务

范式

模型

8.神经网络