经元的激活函数,ReLU起源于神经科学的研究:2001年,Dayan、Abott从生物学角度模拟出了脑神经元接受信号更精确的激活模型,如下图:

ReLU的定义
ReLU是Rectified Linear Unit的缩写,中文名叫修正线性单元。它是一种常用的神经网络激活函数,其数学定义为:
f(x) = max(0, x)
其函数图像如下:
![]()
Softplus可以看作ReLU的平滑版本
优点
与Sigmoid、Tanh等传统激活函数相比,ReLU有以下优点:
-
单侧抑制:左侧被抑制
-
计算简单高效: ReLU只需要和0比较大小,不涉及指数等复杂计算。这使得神经网络的训练更加高效。
-
减轻梯度消失问题: Sigmoid等函数在两端都容易出现梯度接近0的现象,导致深层网络难以训练。而ReLU在x>0时梯度恒为1,一定程度上缓解了梯度消失。
-
提供了稀疏性: ReLU会将一部分神经元的输出置为0,引入了稀疏性,使得网络可以学习到更加紧凑的特征表示。
-
更符合生物学特性: 相比Sigmoid等函数,ReLU更接近生物神经元的激活特性。
缺点
ReLU虽然有诸多优点,但也存在一些问题:
-
死亡ReLU问题 - 当某个神经元的输入持续为负,其输出就会一直为0,不再对网络学习做出贡献,这种现象叫”死亡ReLU”。
-
输出无上界 - 与Sigmoid等函数不同,ReLU输出没有上限,这可能导致部分神经元的值变得很大,影响网络稳定性。
变体
为了解决这些问题,研究者提出了一些ReLU的变体,如Leaky ReLU、PReLU、ELU等。它们在保留ReLU优点的同时,对缺点进行了一定改进。
总之,ReLU激活函数易于实现、计算高效,能有效缓解梯度消失,已成为目前最常用的激活函数之一。理解ReLU的特性,有助于更好地设计和优化神经网络模型。