【深度学习】从Logits到Loss:Softmax与交叉熵的协同计算图

公子札的札

1. 理解分类任务中的Logits与概率转换

在深度学习的分类任务中,神经网络的最后一层通常会输出一组未经处理的数值,我们称之为logits。这些logits就像是每个类别的"原始得分",但它们还不能直接作为概率使用。想象一下考试评分:不同科目的卷面分数可能差异很大,数学满分150分而语文满分只有100分,这时候直接比较各科分数就不太公平。logits面临同样的问题——数值范围不统一,且可能包含负值。

这时候就需要Softmax函数登场了。它就像个智能的分数转换器,主要做三件事:

  1. 将所有数值转为正数(通过指数函数)
  2. 将所有数值压缩到(0,1]区间
  3. 确保所有数值之和为1

用数学公式表示就是:

python复制softmax(z_i) = exp(z_i) / sum(exp(z_j)) for j in all classes

但这里有个实际工程中经常遇到的问题:指数运算很容易导致数值溢出。比如当某个logits值达到100时,exp(100)已经是个天文数字了。我在实际项目中就遇到过因为忽略这个问题导致NaN(Not a Number)错误的情况。解决方法很简单但很有效——在计算softmax前,先对所有logits减去最大值:

python复制z_stable = z - max(z)
softmax(z_i) = exp(z_stable_i) / sum(exp(z_stable_j))

这个技巧保持了数值的相对关系,同时避免了溢出风险。PyTorch和TensorFlow的底层实现都采用了这种稳定化处理,这也是为什么我们很少在实际使用中遇到数值问题的原因。

2. 交叉熵损失的本质与计算

理解了概率转换,接下来就要看如何评估预测的好坏,这就是交叉熵损失(Cross Entropy Loss)的工作。交叉熵衡量的是两个概率分布之间的差异,在分类任务中,一个是模型预测的概率分布,另一个是真实标签的分布(通常是one-hot编码)。

举个例子,假设我们有个猫狗鸟三分类问题:

  • 真实标签是"狗":[0,1,0]
  • 模型预测概率是:[0.1, 0.7, 0.2]

交叉熵损失的计算公式是:

python复制loss = -sum(y_true * log(y_pred))

由于one-hot编码中只有一个1,其余都是0,所以实际计算简化为:

python复制loss = -log(y_pred[true_class])

这个公式有个很有意思的特性:当预测概率接近1时,loss接近0;当预测概率降低时,loss会迅速增大。我在调试模型时发现,当loss突然飙升时,往往意味着模型对某些样本做出了非常自信但错误的预测。

在批量处理时,我们通常取所有样本loss的平均值:

python复制batch_loss = -sum(log(y_pred_i[true_class_i])) / batch_size

3. Softmax与交叉熵的协同计算图

现在我们来把这两个部分组合起来,看看现代深度学习框架是如何高效实现这个过程的。关键点在于:Softmax和交叉熵在数学上可以合并计算,这样既提高数值稳定性又提升计算效率。

计算图的完整流程是这样的:

  1. 输入logits(比如来自全连接层)
  2. 数值稳定化:logits -= max(logits)
  3. 计算指数:exp_logits = exp(logits)
  4. 计算softmax分母:sum_exp = sum(exp_logits)
  5. 计算交叉熵分子:exp_correct = exp_logits[true_class]
  6. 最终loss:loss = -log(exp_correct / sum_exp)

PyTorch中的nn.CrossEntropyLoss和TensorFlow中的tf.nn.softmax_cross_entropy_with_logits都是这样实现的。这种合并实现有三大优势:

  • 数值稳定:避免了单独计算softmax可能出现的中间值溢出
  • 计算高效:减少了重复计算
  • 梯度优化:可以推导出更简洁的梯度公式

让我们看个具体例子。假设:

  • logits = [2.0, 1.0, 0.1]
  • 真实类别是0(第一个类别)

计算步骤:

  1. 稳定化:logits -= 2.0 → [0, -1.0, -1.9]
  2. 计算指数:exp_logits ≈ [1.0, 0.3679, 0.1496]
  3. sum_exp ≈ 1.0 + 0.3679 + 0.1496 ≈ 1.5175
  4. exp_correct = 1.0
  5. loss = -log(1.0 / 1.5175) ≈ 0.417

4. 梯度回传的数学原理与实现

理解前向计算只是故事的一半,反向传播的梯度计算同样重要。这里有个令人惊讶的事实:Softmax+交叉熵组合的梯度计算异常简洁。

推导过程是这样的:

  1. 设softmax输出为p_i,真实标签为y_i(one-hot)
  2. 交叉熵loss = -sum(y_i * log(p_i))
  3. 经过推导可得:∂loss/∂z_i = p_i - y_i

这意味着什么呢?梯度就是预测概率减去真实标签!这个结果既优雅又实用。我在实现自定义损失层时,曾经手动推导过这个结果,发现框架的自动微分给出的梯度确实如此。

举个例子:

  • 预测概率p = [0.7, 0.2, 0.1]
  • 真实标签y = [1, 0, 0]
  • 梯度grad = [0.7-1, 0.2-0, 0.1-0] = [-0.3, 0.2, 0.1]

这个梯度告诉我们:

  • 对于正确类别(第一个),模型预测概率应该增加(负梯度表示要增加)
  • 对于错误类别,模型预测概率应该减少

5. 实际工程中的注意事项

在真实项目中应用这些理论时,有几个容易踩坑的地方值得注意:

数值精度问题:虽然框架已经做了稳定化处理,但在极端情况下仍可能出现问题。比如当logits差异非常大时(比如[100,0,0]),softmax可能会给出[1,0,0]这样的极端概率,导致计算log时出现-inf。解决方案是可以考虑给概率加个极小值(如1e-8)做截断。

标签平滑技巧:直接使用one-hot标签可能导致模型过于自信。实践中可以使用标签平滑(Label Smoothing),即把真实标签从1调整为比如0.9,剩下的0.1均匀分配给其他类别。PyTorch的CrossEntropyLoss直接支持这个功能:

python复制criterion = nn.CrossEntropyLoss(label_smoothing=0.1)

多标签分类的变体:标准的softmax交叉熵假设每个样本只属于一个类别。如果你的任务允许多标签(比如一张图同时包含"猫"和"狗"),就需要使用sigmoid配合二元交叉熵(BCE)损失。

温度参数调节:有时我们希望softmax的输出不那么"尖锐",可以引入温度参数T:

python复制softmax(z_i) = exp(z_i/T) / sum(exp(z_j/T))

T>1会使分布更平滑,T<1会使分布更尖锐。这个技巧在知识蒸馏等场景特别有用。

6. 从理论到实践:PyTorch与TensorFlow实现对比

让我们看看两大主流框架中如何实现这个组合操作:

PyTorch实现

python复制import torch
import torch.nn as nn

# 方法1:分开使用
logits = torch.randn(3, 5)  # 3个样本,5分类
labels = torch.tensor([1, 0, 4])  # 真实标签

softmax = nn.Softmax(dim=1)
probs = softmax(logits)
loss_fn = nn.NLLLoss()  # 负对数似然损失
loss = loss_fn(torch.log(probs), labels)

# 方法2:推荐方式(合并计算)
loss_fn = nn.CrossEntropyLoss()  # 内置softmax
loss = loss_fn(logits, labels)

TensorFlow实现

python复制import tensorflow as tf

logits = tf.random.normal((3, 5))
labels = tf.constant([1, 0, 4])

# 方法1:分开使用
probs = tf.nn.softmax(logits, axis=1)
loss = tf.keras.losses.sparse_categorical_crossentropy(labels, probs)

# 方法2:推荐方式(合并计算)
loss = tf.nn.sparse_softmax_cross_entropy_with_logits(labels, logits)

关键区别:

  1. PyTorch的CrossEntropyLoss内部已经包含softmax,所以输入应该是原始logits
  2. TensorFlow的函数名更明确地区分了是否包含softmax
  3. 两个框架都推荐使用合并版本,原因就是我们前面讨论的数值稳定性和计算效率

在我的项目经验中,曾经因为混淆这些版本导致过bug。比如在PyTorch中如果先手动做softmax再传入CrossEntropyLoss,就相当于做了两次softmax,结果完全错误。这种错误不会报错但会导致模型无法正常训练,需要特别注意。

内容推荐

别再为Ubuntu下的las文件发愁了!手把手教你用CloudCompare搞定点云数据(附PDAL避坑指南)
本文详细介绍了在Ubuntu系统下使用CloudCompare处理las格式点云数据的完整流程,包括环境准备、源码获取、CMake配置、编译安装及实战操作。特别针对PDAL插件的常见问题提供了避坑指南,帮助GIS工程师和测绘专业人员高效处理激光雷达数据。
摄影爱好者必备:Exif Pilot 6.28中文版安装与元数据编辑全攻略
本文详细介绍了Exif Pilot 6.28中文版的安装与元数据编辑全攻略,帮助摄影爱好者轻松管理照片的EXIF、IPTC和XMP元数据。从软件安装、界面熟悉到基础编辑和高级批量处理技巧,全面解析如何利用这一专业工具提升照片管理效率,特别适合需要精确整理和编辑大量照片的用户。
高通骁龙平台Camera驱动开发:从XML配置到BIN文件生成的完整流程(以IMX586为例)
本文详细介绍了在高通骁龙平台上开发Camera驱动的完整流程,以IMX586传感器为例,从XML配置到BIN文件生成的全过程。内容涵盖开发环境准备、传感器XML配置文件解析、模块级XML配置与设备树协同、BIN文件生成与部署,以及高级调优与性能优化技巧,帮助开发者快速实现Camera驱动点亮。
【开发工具】【Bus Hound】USB协议深度解析:从抓包到逆向工程实践
本文深入解析Bus Hound工具在USB协议分析中的应用,从基础抓包到逆向工程实践。通过实战案例展示如何利用Bus Hound诊断USB枚举故障、进行协议逆向分析及性能优化,帮助开发者高效解决USB设备调试难题。
从GAN到U-Net:ConvTranspose2d在PyTorch/Keras中的核心应用场景全解析
本文深入解析了ConvTranspose2d(转置卷积)在PyTorch和Keras中的核心应用场景,从GAN的图像生成到U-Net的医学图像分割。详细探讨了其数学原理、计算过程及框架实现差异,并提供了缓解棋盘效应等常见问题的实用技巧,帮助开发者优化网络架构设计。
Linux网络配置实战:从诊断到管理的核心命令与文件详解
本文详细介绍了Linux网络配置的核心命令与文件,包括网络状态诊断、连接测试技巧及配置文件解析。从ifconfig、route到ss命令,再到DNS配置和主机名管理,帮助读者全面掌握Linux网络设置与故障排查技能,提升网络管理效率。
笔记本开机卡在‘no bootable device’?别慌,这5步排查法帮你省下维修费
本文详细解析了笔记本开机出现‘no bootable device’错误的5步排查法,涵盖BIOS设置、物理连接检查、硬盘健康检测和系统引导修复等关键步骤。通过实战案例和工具推荐,帮助用户快速定位问题根源,避免不必要的维修费用。
用MATLAB给图片加个‘猫猫滤镜’:手把手实现Arnold映射图像置乱与还原
本文详细介绍了如何使用MATLAB实现Arnold映射(又称猫映射)对图像进行置乱与还原,打造独特的'猫猫滤镜'效果。通过手把手的代码示例和原理讲解,读者可以学习到Arnold映射的核心算法、参数选择技巧以及如何处理非正方形和彩色图像,实现兼具趣味性和实用性的图像加密与恢复功能。
5G信号是怎么找到你的?从SSB波束到寻呼Paging,一次讲清手机与基站的‘握手’全过程
本文详细解析了5G信号从SSB波束扫描到寻呼Paging的全过程,揭示了手机与基站之间的精密通信机制。通过波束赋形技术和动态资源配置,5G网络实现了高效信号传输和低能耗运行,特别适合高密度场景和移动环境。文章还探讨了极端场景下的信号韧性设计,展现了5G技术的强大适应性。
STC89C52单片机+ADC0832+DHT11:手把手教你做一个能自动浇花的智能花盆(附完整代码和避坑指南)
本文详细解析了基于STC89C52单片机和ADC0832、DHT11传感器的智能浇花系统全流程实现。从硬件选型、电路设计到软件架构和关键算法,提供完整代码和避坑指南,特别适合51单片机初学者和毕设项目参考。
图解RISC-V流水线数据冒险:为什么你的CPU会‘算错’?5种场景与硬件解决方案
本文深入解析RISC-V五级流水线中的数据冒险问题,通过五种典型场景图解CPU为何会‘算错’。详细介绍了硬件解决方案如数据前递(Forwarding)技术,帮助读者理解如何在不降低流水线效率的前提下解决数据依赖问题,提升处理器性能。
别再忽略那个黄色小锁了!手把手教你用Wireshark和OpenSSL复现一个SSL中间人攻击(附C代码分析)
本文详细解析了HTTPS中间人攻击的实现原理与防御策略,通过Wireshark和OpenSSL工具手把手教你复现SSL中间人攻击。文章涵盖ARP欺骗、SSL剥离、恶意代理等多种攻击路径,并提供C代码分析和防御方案,帮助开发者深入理解SSL安全机制。
从踩坑到精通:MyBatis驼峰映射开启后,为什么我的`create_time`还是null?
本文深入解析MyBatis驼峰映射功能常见问题,特别是配置`map-underscore-to-camel-case`后`create_time`仍为null的七大原因。从配置位置、resultMap优先级到注解SQL处理,详细讲解排查技巧和解决方案,帮助开发者彻底掌握MyBatis字段映射机制。
从EMC角度重新设计你的PCB:六层板叠层实战与磁通对消原理详解
本文深入探讨了从EMC角度优化PCB设计的六层板叠层方案,重点解析了磁通对消原理及其在降低电磁干扰中的关键作用。通过实测数据对比不同叠层结构的性能差异,提供了包括介质厚度比例、电源完整性设计等实战技巧,帮助工程师在成本与性能间取得平衡,显著提升高速电路的EMC表现。
从蓝牙到NFC:TLV编码在常见通信协议中的应用对比
本文深入探讨了TLV编码在蓝牙、NFC等通信协议中的应用对比,揭示了其Type-Length-Value结构在数据交换中的核心优势。通过具体协议实例分析,展示了TLV在BLE广播、NFC智能标签等场景的高效实现方式,为物联网设备通信提供了可靠的数据编码格式解决方案。
ArcGIS中高效提取图层变更区域的自动化流程解析
本文详细解析了ArcGIS中高效提取图层变更区域的自动化流程,涵盖空间关系与属性比对的核心原理、完整自动化流程拆解及Python脚本进阶技巧。通过案例展示自动化工具在国土调查、城市规划中的实际应用,显著提升工作效率与准确性。特别介绍了使用ArcPy实现全流程自动化的方法,帮助用户快速掌握图层变化提取技术。
联想天逸100-15ibd旧本升级SSD,我踩过的那些坑:光驱位不认盘、BIOS进不去、驱动装不上
本文详细记录了联想天逸100-15ibd笔记本升级SSD过程中遇到的光驱位不认盘、BIOS设置困难及驱动安装问题,并提供了实用的解决方案和避坑指南。从选盘到系统迁移,再到性能调优,全面覆盖升级过程中的关键步骤和注意事项,帮助用户顺利完成老旧笔记本的固态硬盘升级。
XCTF攻防世界MISC--听音寻踪:MP3私有位隐写实战解析
本文深入解析XCTF攻防世界MISC题目中的MP3私有位隐写技术,详细讲解MP3帧头结构、私有位定位方法及两种编程提取思路(逐帧扫描法和模板解析法),并提供实战避坑指南与防御检测技巧,帮助CTF选手掌握音频隐写术的核心原理与解题技巧。
从数据到部署:SFCHD数据集与SCALE模块如何重塑工地安全监控
本文深入探讨了SFCHD数据集与SCALE模块在工地安全监控中的革命性应用。通过详实的数据分析和实战案例,展示了如何利用这一组合拳解决安全服检测和安全帽检测的行业痛点,显著提升识别准确率和实时响应能力,为建筑工地智能化监管提供可靠技术方案。
FPGA丨Ycbcr转RGB算法实现与视频处理应用
本文详细介绍了FPGA实现Ycbcr转RGB算法的关键技术,包括色彩空间转换原理、定点数优化、流水线设计和时序对齐处理。通过实际项目经验,分享了在视频处理系统中集成该模块的优化策略和调试技巧,帮助开发者高效实现高质量的视频色彩处理应用。
已经到底了哦
精选内容
热门内容
最新内容
Spring Boot集成Knife4j:从基础配置到高级自定义与安全实践
本文详细介绍了如何在Spring Boot项目中集成Knife4j,从基础配置到高级自定义与安全实践。Knife4j作为Swagger的增强解决方案,提供了更现代化的UI界面、离线文档导出、接口调试增强等实用功能。文章还涵盖了自定义访问路径、接口分组管理以及生产环境下的安全控制等高级话题,帮助开发者高效生成和管理API文档。
Android端火山引擎API验签实战:从零封装到多接口适配
本文详细介绍了在Android端封装火山引擎API验签的实战经验,包括签名算法的关键改造点、OkHttp网络层的深度适配以及多接口动态适配方案。通过优化时区处理、URL编码和拦截器配置,成功解决了官方SDK在Android端的适配问题,提升了API调用的稳定性和效率。
firewall-cmd复杂规则实战:除了限制SSH,还能这样管理IP白名单和黑名单
本文深入探讨firewall-cmd的rich-rule高级功能,展示如何通过精细化IP与端口访问控制实现多团队环境下的安全管理。文章详细解析了复杂规则的配置方法、优先级处理及排错技巧,并提供了XML配置与自动化运维方案,帮助管理员高效管理IP白名单和黑名单。
指数函数:从基础定义到实际应用解析
本文全面解析指数函数的基础定义、图像性质及其在实际应用中的重要性。从金融复利计算到科学研究的放射性衰变,指数函数展现了强大的建模能力。特别介绍了指数函数在算法复杂度分析和工程问题中的应用,帮助读者深入理解这一数学工具的核心价值。
从零到一:手把手教你构建自定义Gymnasium强化学习环境
本文详细介绍了如何从零开始构建自定义Gymnasium强化学习环境,包括环境搭建、核心接口理解、具体实现步骤以及常见问题排查。通过手把手教学,帮助开发者掌握创建完全匹配自身问题场景的强化学习环境,提升算法迁移和应用能力。
告别盲猜:用Wireshark和串口助手抓包分析终端按键码(LetterShell调试必备)
本文详细介绍了如何利用Wireshark和串口助手抓包分析终端按键码,解决LetterShell调试中的按键识别问题。通过实战案例和键值解析机制剖析,帮助开发者掌握终端交互调试的核心方法,提升嵌入式系统开发效率。
【路径规划】融合控制障碍函数 (CBF) 与人工势场 (APF) 的无人机动态避障算法及MATLAB实现
本文详细介绍了融合控制障碍函数(CBF)与人工势场(APF)的无人机动态避障算法及其MATLAB实现。该混合算法结合CBF的安全保障和APF的实时导航优势,显著提升无人机在复杂环境中的避障性能。通过MATLAB仿真验证,算法在10米/秒速度下能稳定避开动态障碍物,碰撞风险降低87%,计算耗时减少65%。文章包含详细的算法原理、实现步骤和调参技巧,为无人机路径规划提供实用解决方案。
Java后台调用高德地图API返回UNKNOWN_ERROR的排查与解决
本文详细解析了Java后台调用高德地图API时返回UNKNOWN_ERROR(错误码20003)的常见原因及解决方案。从密钥类型匹配、请求参数处理到网络环境配置,提供了全面的排查流程和代码改进建议,帮助开发者快速定位并解决这一典型问题。
Claude Code+Cursor+Claude 4三剑合璧!5步搞定Magentic-UI的OAuth2.0集成,开发效率飙升500%,零基础也能玩转企业级认证!
本文详细介绍了如何利用Claude Code、Cursor和Claude 4三款工具快速实现Magentic-UI的OAuth2.0集成。通过5个步骤,开发者可以轻松完成从环境准备到企业级认证的全流程,开发效率提升500%。文章特别强调了Claude Code的项目理解能力和Cursor的智能补全功能,为零基础开发者提供了完整的解决方案。
从存储到检索:深度解析数据库文本类型的选择策略与性能权衡
本文深度解析数据库文本类型的选择策略与性能权衡,涵盖CHAR、VARCHAR、TEXT等类型的适用场景与优化技巧。通过实际案例展示如何根据业务需求选择最佳文本类型,提升存储效率与查询性能,特别关注Unicode支持与大文本处理的特殊方案。