从数值稳定到梯度安全：LogSumExp在损失函数中的核心应用

榴莲世界

1. 为什么我们需要LogSumExp？

第一次遇到数值溢出问题是在训练一个简单的文本分类模型时。模型在训练过程中突然崩溃，日志里赫然写着"NaN"——这个让所有机器学习工程师头皮发麻的提示。经过排查，发现问题出在交叉熵损失函数的计算上：当模型对某个类别的预测置信度过高时，直接计算softmax会导致指数运算结果超出浮点数表示范围。

数值稳定性问题在深度学习中有两种典型表现：

上溢(overflow)：当exp(x)中的x过大时，计算结果超过float32能表示的最大值(约3.4e38)，变成infinity
下溢(underflow)：当exp(x)中的x过小时，计算结果小于float32能表示的最小正值(约1.2e-38)，变成0

这两种情况都会导致梯度计算出现异常。比如在计算交叉熵损失时：

python复制def unsafe_softmax(x):
    exps = np.exp(x)
    return exps / np.sum(exps)  # 当x中有很大正值时，这里可能得到inf/inf=NaN

2. LogSumExp的数学魔法

2.1 从Softmax到LogSumExp

标准的Softmax计算存在明显的数值稳定性问题：

python复制import numpy as np

x = np.array([1000, 0, -1000])  # 极端输入案例
naive_softmax = np.exp(x) / np.sum(np.exp(x))  # 直接计算会得到[NaN, NaN, NaN]

LogSumExp技巧的核心在于数学上的等价变换。设b=max(x)，我们有：

code复制log(∑exp(x_i)) = log(exp(b) * ∑exp(x_i - b)) 
               = b + log(∑exp(x_i - b))

这个变换的妙处在于：

通过减去最大值，确保所有exp的参数≤0，避免上溢
即使很小的值也不会完全下溢为0，因为log(∑exp)会保留这些微小差异

2.2 数值稳定的Softmax实现

基于LogSumExp的稳定实现：

python复制def safe_softmax(x):
    b = np.max(x)
    exps = np.exp(x - b)
    return exps / np.sum(exps)

x = np.array([1000, 0, -1000])
print(safe_softmax(x))  # 正确输出[1., 0., 0.]

这个实现可以处理任意大小的输入值，因为：

最大的exp(x_i - b)总是exp(0)=1，不会上溢
即使其他值很小，由于浮点数精度，exp(-1000)≈0但不会导致除零错误

3. 在损失函数中的关键应用

3.1 交叉熵损失的稳定计算

交叉熵损失的标准形式：

code复制CE = -log(exp(x_true)/∑exp(x_i)) 
   = -x_true + log(∑exp(x_i))

直接实现时，log(∑exp)部分容易出问题。使用LogSumExp技巧：

python复制def stable_cross_entropy(logits, labels):
    shift = logits - np.max(logits, axis=-1, keepdims=True)
    log_probs = shift - np.log(np.sum(np.exp(shift), axis=-1, keepdims=True))
    return -np.sum(labels * log_probs, axis=-1)

3.2 梯度计算的安全性

LogSumExp的梯度恰好就是Softmax输出：

code复制∂LSE(x)/∂x_i = exp(x_i) / ∑exp(x_j)

这意味着：

梯度计算自动继承了数值稳定性
反向传播时不会出现NaN/inf等异常值
梯度大小保持在合理范围内，有利于优化器工作

实际测试对比：

python复制# 不稳定实现
x = np.array([500, 300, 200], dtype=np.float32)
grad = np.exp(x) / np.sum(np.exp(x))  # 得到[NaN, NaN, NaN]

# 稳定实现
b = np.max(x)
stable_grad = np.exp(x - b) / np.sum(np.exp(x - b))  # 正确输出[1., 0., 0.]

4. 工程实践中的进阶技巧

4.1 批量计算的优化

实际训练中我们通常处理批量数据。高效的向量化实现：

python复制def batch_softmax(logits):
    max_logits = np.max(logits, axis=-1, keepdims=True)
    exps = np.exp(logits - max_logits)
    return exps / np.sum(exps, axis=-1, keepdims=True)

4.2 混合精度训练的考量

在使用FP16混合精度训练时，数值范围更小(最大约6.5e4)，LogSumExp更为关键：

先使用FP32计算LogSumExp
将结果转换回FP16
避免直接在FP16下进行指数运算

python复制def mixed_precision_softmax(logits):  # logits是FP16
    logits_fp32 = logits.astype(np.float32)
    max_logits = np.max(logits_fp32, axis=-1, keepdims=True)
    exps = np.exp(logits_fp32 - max_logits)
    return (exps / np.sum(exps, axis=-1, keepdims=True)).astype(np.float16)

4.3 其他损失函数的应用

LogSumExp技巧同样适用于：

带温度参数的Softmax
层次化Softmax
对比损失(Contrastive Loss)
各种使用对数概率的损失函数

例如带温度参数的稳定实现：

python复制def tempered_softmax(logits, temperature):
    scaled = logits / temperature
    b = np.max(scaled, axis=-1, keepdims=True)
    exps = np.exp(scaled - b)
    return exps / np.sum(exps, axis=-1, keepdims=True)

已经到底了哦

精选内容

1 在阿里云ECS上从零部署YOLOv5：用Conda虚拟环境避坑与训练单类别数据集 2 WebM文件解析实战：从Matroska容器到EBML结构的完整指南 3 从游戏物理引擎到导弹仿真：用Unity3D/Unreal Engine理解刚体动力学与运动学 4 Camx架构下UMD/KMD日志与图像Dump的实战配置指南 5 从float64到float32：精度与内存的博弈，如何化解NumPy数组的MemoryError 6 TRNSYS模块应用场景与选型指南 7 手把手教你理解GCC链接过程：从.o到可执行文件，符号解析到底做了什么？8 CO配置实战：企业结构分配中公司代码与成本控制范围的关联解析 9 从PLL到代码生成：在Intel Quartus和Xilinx Vivado里搞定任意分频的实战指南 10 WebSocket 连接异常：CLOSING/CLOSED 状态与数据长度限制的排查与解决