PyTorch实现MNIST手写数字识别：从数据加载到模型训练-代码聚汇网

PyTorch实现MNIST手写数字识别：从数据加载到模型训练

Amy青梅

1. 项目概述

MNIST手写数字识别是深度学习领域的"Hello World"项目，它包含了从数据准备到模型训练、评估的完整流程。这个项目特别适合刚接触PyTorch框架的开发者，因为：

数据集简单规范：28x28的灰度图像，10个明确分类
计算资源要求低：普通笔记本电脑就能完成训练
验证快速：单个epoch只需几分钟就能看到效果

我在实际教学中发现，很多初学者在实现第一个神经网络时容易陷入两个极端：要么过度简化导致无法理解核心概念，要么过度复杂化导致难以调试。本文设计的这个三层全连接网络(DNN)恰到好处地平衡了这两点。

2. 环境准备与数据加载

2.1 环境配置要点

在开始之前，我们需要特别注意OpenMP库冲突问题。当你的环境中同时安装了多个科学计算库(如NumPy和PyTorch)时，可能会出现以下错误：

code复制OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.

解决方案是在导入任何库之前设置环境变量：

python复制import os
os.environ["KMP_DUPLICATE_LIB_OK"] = "TRUE"

这个设置告诉系统允许重复加载OpenMP库，虽然这不是最优雅的解决方案，但对于快速开始项目来说是最实用的。

2.2 数据加载的两种方式

PyTorch提供了非常便捷的MNIST数据集加载方式。这里我们使用torchvision.datasets模块：

python复制import torchvision
from torchvision import transforms

# 训练集下载
train_data = torchvision.datasets.MNIST(
    root='MNIST',  # 存储路径
    train=True,    # 下载训练集
    transform=transforms.ToTensor(),  # 转换为张量
    download=True  # 如果本地没有就下载
)

# 测试集下载
test_data = torchvision.datasets.MNIST(
    root='MNIST',
    train=False,   # 下载测试集
    transform=transforms.ToTensor(),
    download=True
)

注意：第一次运行时会下载约60MB的数据集，请确保网络连接正常。下载完成后，数据会自动存储在指定的root目录下，下次运行就不需要重新下载了。

2.3 数据批处理与加载

实际训练中我们很少一次性加载全部数据，而是采用批处理(batch)的方式：

python复制from torch.utils.data import DataLoader

train_loader = DataLoader(
    dataset=train_data,
    batch_size=100,  # 每批100个样本
    shuffle=True     # 打乱顺序
)

test_loader = DataLoader(
    dataset=test_data,
    batch_size=100,
    shuffle=False    # 测试集不需要打乱
)

选择batch_size=100的考虑：

太大(如1000)：内存占用高，梯度更新不够频繁
太小(如10)：训练速度慢，梯度波动大
100是一个经验值，在大多数情况下效果不错

3. 神经网络模型设计

3.1 网络结构定义

我们构建一个三层的全连接网络：

python复制import torch.nn as nn

class DNN(nn.Module):
    def __init__(self):
        super(DNN, self).__init__()
        self.linear1 = nn.Linear(784, 64)  # 输入层到隐藏层1
        self.linear2 = nn.Linear(64, 32)   # 隐藏层1到隐藏层2
        self.linear3 = nn.Linear(32, 10)   # 隐藏层2到输出层
        self.sigmoid = nn.Sigmoid()        # 激活函数
        
    def forward(self, x):
        x = x.view(-1, 784)  # 展平图像(28x28=784)
        x = self.sigmoid(self.linear1(x))
        x = self.sigmoid(self.linear2(x))
        x = self.linear3(x)  # 最后一层不用激活函数
        return x

为什么选择这样的结构？

输入层784个节点对应28x28的图像像素
逐步压缩到64->32是为了提取高层次特征
输出层10个节点对应0-9的数字分类
使用Sigmoid作为激活函数是因为它的输出范围(0,1)适合概率解释

3.2 激活函数选择

虽然ReLU现在更流行，但在这个简单网络中Sigmoid有几个优势：

输出范围固定(0,1)，容易解释
梯度平滑，适合浅层网络
对输入数据的缩放不敏感

不过要注意Sigmoid的缺点：

容易出现梯度消失(当输入很大或很小时)
计算量比ReLU稍大

4. 训练过程实现

4.1 损失函数与优化器

python复制model = DNN()
criterion = nn.CrossEntropyLoss()  # 交叉熵损失
optimizer = torch.optim.SGD(
    model.parameters(), 
    lr=0.1  # 学习率
)

选择交叉熵损失的原因：

非常适合多分类问题
数值稳定性好
与Softmax结合时计算效率高

学习率设为0.1是经过多次实验得出的：

太大(如0.5)：容易震荡不收敛
太小(如0.01)：收敛速度太慢

4.2 训练循环

完整的训练流程包括以下几个关键步骤：

python复制for epoch in range(100):  # 总共训练100轮
    model.train()  # 训练模式
    running_loss = 0.0
    correct = 0
    total = 0
    
    for i, (inputs, labels) in enumerate(train_loader):
        # 前向传播
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        
        # 反向传播
        optimizer.zero_grad()  # 清空梯度
        loss.backward()        # 计算梯度
        optimizer.step()       # 更新参数
        
        # 统计信息
        running_loss += loss.item()
        _, predicted = outputs.max(1)
        total += labels.size(0)
        correct += predicted.eq(labels).sum().item()
        
        # 每100个batch打印一次
        if (i+1) % 100 == 0:
            print(f'Epoch [{epoch+1}/100], Step [{i+1}/{len(train_loader)}], '
                  f'Loss: {running_loss/(i+1):.4f}, '
                  f'Accuracy: {100*correct/total:.2f}%')

重要提示：optimizer.zero_grad()必须在loss.backward()之前调用，否则梯度会累积而不是替换。

4.3 模型评估

在测试集上评估模型性能：

python复制model.eval()  # 评估模式
test_loss = 0.0
test_correct = 0
test_total = 0

with torch.no_grad():  # 不计算梯度
    for inputs, labels in test_loader:
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        
        test_loss += loss.item()
        _, predicted = outputs.max(1)
        test_total += labels.size(0)
        test_correct += predicted.eq(labels).sum().item()

print(f'Test Loss: {test_loss/len(test_loader):.4f}, '
      f'Test Accuracy: {100*test_correct/test_total:.2f}%')

5. 结果可视化与分析

5.1 训练曲线绘制

python复制import matplotlib.pyplot as plt

plt.figure(figsize=(12, 5))

# 损失曲线
plt.subplot(1, 2, 1)
plt.plot(train_losses, 'b-', label='Training Loss')
plt.plot(test_losses, 'r-', label='Test Loss')
plt.title('Loss vs. Epochs')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.grid(True)

# 准确率曲线
plt.subplot(1, 2, 2)
plt.plot(train_accuracies, 'b-', label='Training Accuracy')
plt.plot(test_accuracies, 'r-', label='Test Accuracy')
plt.title('Accuracy vs. Epochs')
plt.xlabel('Epochs')
plt.ylabel('Accuracy (%)')
plt.legend()
plt.grid(True)

plt.tight_layout()
plt.savefig('training_curves.png')

5.2 结果分析

从训练曲线可以看出：

训练损失和测试损失都稳定下降，说明没有过拟合
最终测试准确率约95%，对于简单DNN来说不错
大约50个epoch后模型基本收敛

可能的改进方向：

增加网络深度
使用卷积神经网络(CNN)
尝试不同的优化器(如Adam)
加入正则化技术

6. 常见问题与解决方案

6.1 内存不足问题

错误信息：

code复制RuntimeError: CUDA out of memory

解决方案：

减小batch_size
使用更小的模型
清理不必要的变量：del variable
使用torch.cuda.empty_cache()

6.2 梯度爆炸/消失

现象：

损失变成NaN
准确率不变化

解决方法：

使用梯度裁剪：torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm)
调整学习率
改用其他激活函数(如ReLU)

6.3 过拟合问题

表现：

训练准确率高但测试准确率低
测试损失开始上升

应对措施：

增加Dropout层
使用L2正则化
早停(Early Stopping)
数据增强

7. 进阶优化建议

7.1 学习率调整策略

固定学习率不是最优选择，可以尝试：

python复制scheduler = torch.optim.lr_scheduler.StepLR(
    optimizer, 
    step_size=30,  # 每30个epoch
    gamma=0.1     # 学习率乘以0.1
)

# 在每个epoch后调用
scheduler.step()

7.2 模型保存与加载

训练好的模型可以保存供后续使用：

python复制# 保存
torch.save(model.state_dict(), 'mnist_dnn.pth')

# 加载
model = DNN()
model.load_state_dict(torch.load('mnist_dnn.pth'))
model.eval()

7.3 使用GPU加速

如果有NVIDIA GPU，可以这样利用：

python复制device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = DNN().to(device)

# 在训练循环中
inputs, labels = inputs.to(device), labels.to(device)

8. 项目扩展思路

这个基础项目可以进一步扩展：

可视化中间层：理解网络学到了什么

python复制# 获取第一层的权重
weights = model.linear1.weight.data
# 可视化前16个神经元的权重
plt.figure(figsize=(10,10))
for i in range(16):
    plt.subplot(4,4,i+1)
    plt.imshow(weights[i].view(28,28), cmap='gray')

混淆矩阵分析：找出容易混淆的数字
超参数优化：使用Optuna等工具自动调参
部署为Web应用：使用Flask或FastAPI

在实际教学中，我发现学生最容易忽略的是数据的预处理和模型评估部分。很多人急于开始写网络结构，但事实上，理解数据特征和建立合理的评估标准同样重要。这个简单的DNN实现虽然基础，但包含了深度学习的核心概念，是理解更复杂模型的重要基础。