从Sigmoid到GELU：聊聊激活函数那些‘过气网红’与‘当红炸子鸡’的进化史

风在南方

从Sigmoid到GELU：激活函数进化史中的技术抉择与行业趣闻

深度学习的发展史中，激活函数就像是一面镜子，映照着研究者们对神经网络理解的不断深化。每当一种新的激活函数崭露头角，背后往往伴随着一段技术突破与行业共识形成的精彩故事。今天，我们就来聊聊这些"数字神经元"背后的进化历程，看看它们如何从简单的数学曲线成长为深度学习模型的核心组件。

1. Sigmoid与Tanh：神经网络启蒙时代的双星

1980年代，当反向传播算法首次被引入神经网络训练时，Sigmoid函数几乎成为了每个隐藏层的标配。这个S型曲线的魅力在于：

将任意实数映射到(0,1)区间，符合概率解释
处处可微，满足梯度下降法的要求
导数可以用自身表示：σ'(x)=σ(x)(1-σ(x))

python复制# Sigmoid函数实现示例
import torch
def sigmoid(x):
    return 1 / (1 + torch.exp(-x))

有趣的是，Sigmoid的流行部分源于早期研究者对生物神经元的模仿——他们试图用数学函数模拟神经元的"全有或全无"激活特性。

但很快，研究者们发现了Sigmoid的致命缺陷：当输入绝对值较大时，梯度会趋近于零，导致深层网络训练时出现"梯度消失"现象。这直接催生了它的近亲——Tanh函数。

Tanh的改进在于将输出范围扩展到(-1,1)，解决了Sigmoid输出非零中心化的问题。从数学上看：

code复制Tanh(x) = 2σ(2x) - 1

这种对称性使得网络在初始阶段收敛更快，但梯度消失问题依然存在。有趣的是，在2010年前后，许多论文开始用"Tanh表现优于Sigmoid"作为默认假设，却很少有人深究其原因——这成为了深度学习早期的一个有趣现象：经验性选择往往先于理论解释。

2. ReLU的革命：简单粗暴的效率胜利

2011年，当Geoffrey Hinton团队在ImageNet竞赛中首次大规模使用ReLU(Rectified Linear Unit)时，可能没想到这个简单的max(0,x)操作会引发深度学习训练效率的革命。ReLU的成功印证了"简单即有效"的工程哲学：

特性	Sigmoid/Tanh	ReLU
计算复杂度	高(涉及指数)	低(比较运算)
梯度消失问题	严重	显著缓解
稀疏激活	否	是

python复制# ReLU的极致简洁实现
def relu(x):
    return torch.maximum(x, 0)

但ReLU并非完美无缺。它的"神经元死亡"问题(Dying ReLU)曾引发广泛讨论——一旦神经元输出为负，梯度将永久为零。这个缺陷催生了一系列变体：

LeakyReLU：给负区间一个小的斜率(如0.01x)
PReLU：将负区间斜率作为可学习参数
ELU：在负区间使用指数函数平滑过渡

行业趣闻：2015年左右，许多工程师发现使用ReLU后网络突然"失效"，检查后发现是学习率设得过高导致大量神经元"死亡"。这种经验教训后来成为了深度学习调参的必修课。

3. Swish与GELU：当神经网络开始自我选择

随着Transformer架构的兴起，一种新的激活函数开始崭露头角——GELU(Gaussian Error Linear Unit)。它比ReLU更"温和"，在负区间不是简单截断，而是给予一个基于高斯分布的衰减：

code复制GELU(x) = xΦ(x)

其中Φ(x)是标准正态分布的累积分布函数。

GELU的有趣之处在于它试图模拟神经元的随机正则化行为。与此同时，Google提出的Swish函数(βxσ(βx))也展示了类似特性：

python复制# GELU的近似实现
def gelu(x):
    return 0.5 * x * (1 + torch.tanh(math.sqrt(2/math.pi) * (x + 0.044715*x**3)))

实验表明，这些"自门控"激活函数在深层网络中表现更稳定。下表对比了几种现代激活函数的特性：

函数	连续可微	非单调区间	计算复杂度	主要应用场景
ReLU	否	无	极低	CNN等传统架构
Swish	是	有	中等	大型Transformer
GELU	是	有	较高	BERT/GPT系列
Mish	是	有	高	计算机视觉任务

4. 激活函数选择的实战智慧

在实际项目中，激活函数的选择远非简单的性能对比。资深工程师们积累了一些实用经验：

硬件友好性：在边缘设备上，ReLU仍然是首选，因为它的计算可以被优化为简单的阈值操作
初始化协调：使用GELU时，建议配合T-Fixup等特殊初始化方法
领域适配：
- NLP任务：GELU表现稳定
- 计算机视觉：Swish在某些场景下更优
- 强化学习：ReLU变体仍是主流

python复制# 实际项目中常用的激活函数选择逻辑
def select_activation(name):
    activations = {
        'relu': nn.ReLU(),
        'leaky': nn.LeakyReLU(0.1),
        'gelu': nn.GELU(),
        'swish': nn.SiLU()  # PyTorch中的Swish实现
    }
    return activations.get(name.lower(), nn.ReLU())

在BERT和GPT等大型语言模型中，GELU之所以被广泛采用，部分原因是它在微调阶段表现出的稳定性。有研究者开玩笑说："当你不确定用什么激活函数时，选择论文作者用的那个准没错——至少能保证复现结果。"

回顾激活函数的发展历程，从Sigmoid到GELU的演进，本质上反映了深度学习社区对神经网络行为理解的不断深化。早期的选择更多基于数学便利性，而现代激活函数则开始考虑神经网络的动态特性和训练稳定性。这种转变也印证了深度学习正从"经验科学"向"理论指导实践"的方向发展。

已经到底了哦

精选内容

1 智能车竞赛节能组“偷电”秘籍：如何用LCC补偿网络让你的小车充电又快又稳？2 【Discuz】X3.5论坛模板目录深度解析与定制指南 3 Docker化OpenWRT路由：双网口主机的轻量级网络改造方案 4 【蓝桥杯】二分答案实战：从特征识别到代码实现的完整指南（含经典题型解析与变式训练）5 PyQt5实战：从零配置Qt Designer、PyUIC与PyRcc，打造高效可视化UI开发工作流 6 npm run dev 又报 ELIFECYCLE 错误？别慌，这5个排查步骤帮你搞定（附常见场景）7 【Unity编辑器扩展】从Sprite图集到动态字体：打造高效艺术字生成管线 8 别再凭感觉画差分线了！手把手教你用Polar CITS25/SI9000搞定PCB阻抗匹配（附FR4参数设置）9 别再死记硬背了！通过TinyWebServer项目，一次搞懂Reactor与Proactor网络模型 10 深入RK3588 GPIO：从引脚计算到用户态驱动实战