从LeNet到ResNeXt：用Python和PyTorch复现10个经典CNN模型（附完整代码）

橘子今天吃饭了没

从LeNet到ResNeXt：用Python和PyTorch复现10个经典CNN模型（附完整代码）

卷积神经网络（CNN）的发展历程堪称深度学习领域最精彩的进化史之一。从1998年Yann LeCun提出的5层LeNet-5，到2017年ResNeXt的32路并行残差结构，这些里程碑式的架构不仅推动了计算机视觉的进步，更揭示了神经网络设计的核心思想。本文将带您用PyTorch亲手实现10个改变游戏规则的CNN模型，通过代码解剖每个架构的关键创新点。

1. 环境配置与基础工具

在开始构建经典模型之前，我们需要搭建统一的实验环境。推荐使用Python 3.8+和PyTorch 1.12+的组合，这是目前最稳定的深度学习开发环境之一。

python复制# 基础环境安装
conda create -n torch-cnn python=3.8
conda activate torch-cnn
pip install torch torchvision torchaudio
pip install matplotlib tqdm tensorboard

对于GPU加速，建议配置CUDA 11.3及以上版本。可以通过以下代码验证环境是否正常：

python复制import torch
print(f"PyTorch版本: {torch.__version__}")
print(f"CUDA可用: {torch.cuda.is_available()}")
print(f"当前设备: {torch.cuda.current_device()}")

数据加载器是所有实验的基础组件。我们使用torchvision提供的标准化数据管道：

python复制from torchvision import transforms, datasets

# 通用数据预处理
train_transform = transforms.Compose([
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

test_transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

# CIFAR-10数据集示例
train_set = datasets.CIFAR10(root='./data', train=True, download=True, transform=train_transform)
test_set = datasets.CIFAR10(root='./data', train=False, download=True, transform=test_transform)

2. LeNet-5：CNN的起源（1998）

作为CNN的开山之作，LeNet-5虽然只有5层，但已经包含了现代CNN的所有核心要素。让我们用PyTorch还原这个经典架构：

python复制import torch.nn as nn
import torch.nn.functional as F

class LeNet5(nn.Module):
    def __init__(self, num_classes=10):
        super(LeNet5, self).__init__()
        self.conv1 = nn.Conv2d(1, 6, kernel_size=5, stride=1)
        self.pool1 = nn.AvgPool2d(kernel_size=2, stride=2)
        self.conv2 = nn.Conv2d(6, 16, kernel_size=5, stride=1)
        self.pool2 = nn.AvgPool2d(kernel_size=2, stride=2)
        self.fc1 = nn.Linear(16*5*5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, num_classes)

    def forward(self, x):
        x = F.tanh(self.conv1(x))
        x = self.pool1(x)
        x = F.tanh(self.conv2(x))
        x = self.pool2(x)
        x = x.view(-1, 16*5*5)
        x = F.tanh(self.fc1(x))
        x = F.tanh(self.fc2(x))
        x = self.fc3(x)
        return x

关键创新点实现：

原始论文使用tanh激活而非ReLU
平均池化层包含可训练参数（现代实现已弃用）
全连接层占比超过85%的参数量

训练这个"古老"模型时，需要注意几个历史性设计选择：

提示：原始论文使用均方误差(MSE)作为损失函数，现代实现通常改用交叉熵损失。学习率建议设为0.01，batch size设为128以保持历史准确性。

3. AlexNet：深度学习的复兴（2012）

AlexNet在2012年ImageNet竞赛中一战成名，其PyTorch实现展示了多个突破性设计：

python复制class AlexNet(nn.Module):
    def __init__(self, num_classes=1000):
        super(AlexNet, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 96, kernel_size=11, stride=4),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(96, 256, kernel_size=5, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(256, 384, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 384, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        self.classifier = nn.Sequential(
            nn.Dropout(),
            nn.Linear(256*6*6, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes),
        )

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size(0), 256*6*6)
        x = self.classifier(x)
        return x

现代改进技巧：

添加BatchNorm层加速收敛
使用更小的3x3卷积核替代部分5x5卷积
用全局平均池化替代全连接层减少参数

python复制# 改进版AlexNet实现
class ModernAlexNet(nn.Module):
    def __init__(self, num_classes=1000):
        super(ModernAlexNet, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 96, kernel_size=11, stride=4),
            nn.BatchNorm2d(96),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            # 其余卷积层类似...
        )
        self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
        self.classifier = nn.Sequential(
            nn.Linear(256*6*6, num_classes),
        )

4. VGG-16：深度与规整化的胜利（2014）

VGG的核心思想是通过堆叠小卷积核构建深层网络。以下是其模块化实现：

python复制def make_layers(cfg, batch_norm=False):
    layers = []
    in_channels = 3
    for v in cfg:
        if v == 'M':
            layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
        else:
            conv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)
            if batch_norm:
                layers += [conv2d, nn.BatchNorm2d(v), nn.ReLU(inplace=True)]
            else:
                layers += [conv2d, nn.ReLU(inplace=True)]
            in_channels = v
    return nn.Sequential(*layers)

cfg = {
    'VGG16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 
              512, 512, 512, 'M', 512, 512, 512, 'M'],
}

class VGG(nn.Module):
    def __init__(self, features, num_classes=1000):
        super(VGG, self).__init__()
        self.features = features
        self.avgpool = nn.AdaptiveAvgPool2d((7, 7))
        self.classifier = nn.Sequential(
            nn.Linear(512*7*7, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(),
            nn.Linear(4096, num_classes),
        )

    def forward(self, x):
        x = self.features(x)
        x = self.avgpool(x)
        x = x.view(x.size(0), -1)
        x = self.classifier(x)
        return x

参数优化技巧：

使用1x1卷积减少计算量
采用分组卷积提升并行效率
实现网络瘦身版VGG-Small

python复制# 轻量级VGG实现
cfg_small = [32, 'M', 64, 'M', 128, 128, 'M', 256, 256, 'M', 256, 256, 'M']

def vgg_small():
    return VGG(make_layers(cfg_small))

5. ResNet-50：残差学习的革命（2015）

残差连接彻底解决了深层网络梯度消失问题。以下是其核心模块实现：

python复制class Bottleneck(nn.Module):
    expansion = 4
    
    def __init__(self, inplanes, planes, stride=1, downsample=None):
        super(Bottleneck, self).__init__()
        self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=1, bias=False)
        self.bn1 = nn.BatchNorm2d(planes)
        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=stride,
                               padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(planes)
        self.conv3 = nn.Conv2d(planes, planes * self.expansion, 
                               kernel_size=1, bias=False)
        self.bn3 = nn.BatchNorm2d(planes * self.expansion)
        self.relu = nn.ReLU(inplace=True)
        self.downsample = downsample
        self.stride = stride

    def forward(self, x):
        identity = x
        
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)
        
        out = self.conv2(out)
        out = self.bn2(out)
        out = self.relu(out)
        
        out = self.conv3(out)
        out = self.bn3(out)
        
        if self.downsample is not None:
            identity = self.downsample(x)
            
        out += identity
        out = self.relu(out)
        
        return out

完整ResNet架构通过堆叠不同数量的Bottleneck模块构建：

python复制class ResNet(nn.Module):
    def __init__(self, block, layers, num_classes=1000):
        super(ResNet, self).__init__()
        self.inplanes = 64
        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        
        self.layer1 = self._make_layer(block, 64, layers[0])
        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
        
        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.fc = nn.Linear(512 * block.expansion, num_classes)
        
    def _make_layer(self, block, planes, blocks, stride=1):
        downsample = None
        if stride != 1 or self.inplanes != planes * block.expansion:
            downsample = nn.Sequential(
                nn.Conv2d(self.inplanes, planes * block.expansion,
                          kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(planes * block.expansion),
            )
            
        layers = []
        layers.append(block(self.inplanes, planes, stride, downsample))
        self.inplanes = planes * block.expansion
        for _ in range(1, blocks):
            layers.append(block(self.inplanes, planes))
            
        return nn.Sequential(*layers)
    
    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)
        
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)
        
        x = self.avgpool(x)
        x = x.view(x.size(0), -1)
        x = self.fc(x)
        
        return x

def resnet50():
    return ResNet(Bottleneck, [3, 4, 6, 3])

6. ResNeXt-50：基数优于深度（2017）

ResNeXt通过分组卷积实现多路径残差学习，以下是其核心模块：

python复制class ResNeXtBottleneck(nn.Module):
    expansion = 2
    
    def __init__(self, inplanes, planes, stride=1, downsample=None, groups=32):
        super(ResNeXtBottleneck, self).__init__()
        width = planes * (groups * 4) // 64
        
        self.conv1 = nn.Conv2d(inplanes, width, kernel_size=1, bias=False)
        self.bn1 = nn.BatchNorm2d(width)
        self.conv2 = nn.Conv2d(width, width, kernel_size=3, stride=stride,
                               padding=1, groups=groups, bias=False)
        self.bn2 = nn.BatchNorm2d(width)
        self.conv3 = nn.Conv2d(width, planes * self.expansion, 
                               kernel_size=1, bias=False)
        self.bn3 = nn.BatchNorm2d(planes * self.expansion)
        self.relu = nn.ReLU(inplace=True)
        self.downsample = downsample
        self.stride = stride

    def forward(self, x):
        identity = x
        
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)
        
        out = self.conv2(out)
        out = self.bn2(out)
        out = self.relu(out)
        
        out = self.conv3(out)
        out = self.bn3(out)
        
        if self.downsample is not None:
            identity = self.downsample(x)
            
        out += identity
        out = self.relu(out)
        
        return out

完整ResNeXt实现只需修改ResNet的_make_layer方法：

python复制def resnext50():
    return ResNet(ResNeXtBottleneck, [3, 4, 6, 3], groups=32)

7. 模型训练与优化技巧

实现架构只是第一步，正确的训练方法同样重要。以下是适用于所有CNN模型的通用训练流程：

python复制def train_model(model, criterion, optimizer, scheduler, num_epochs=25):
    best_acc = 0.0
    
    for epoch in range(num_epochs):
        model.train()
        running_loss = 0.0
        
        for inputs, labels in train_loader:
            inputs = inputs.to(device)
            labels = labels.to(device)
            
            optimizer.zero_grad()
            
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            
            running_loss += loss.item() * inputs.size(0)
            
        scheduler.step()
        
        epoch_loss = running_loss / len(train_set)
        val_acc = evaluate(model, val_loader)
        
        if val_acc > best_acc:
            best_acc = val_acc
            torch.save(model.state_dict(), 'best_model.pth')
        
        print(f'Epoch {epoch+1}/{num_epochs} | Loss: {epoch_loss:.4f} | Acc: {val_acc:.4f}')
    
    return model

关键训练技巧：

学习率预热（Learning Rate Warmup）
混合精度训练（AMP）
标签平滑（Label Smoothing）
知识蒸馏（Knowledge Distillation）

python复制# 混合精度训练示例
from torch.cuda.amp import GradScaler, autocast

scaler = GradScaler()

with autocast():
    outputs = model(inputs)
    loss = criterion(outputs, labels)
    
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

8. 模型评估与可视化

理解模型行为需要全面的评估工具。以下是特征可视化和性能分析的实现方法：

python复制def visualize_feature_maps(model, img_tensor, layer_name):
    activations = {}
    
    def hook_fn(module, input, output):
        activations[layer_name] = output.detach()
    
    hook = getattr(model, layer_name).register_forward_hook(hook_fn)
    
    with torch.no_grad():
        model(img_tensor.unsqueeze(0))
    
    hook.remove()
    
    fig, ax = plt.subplots(1, 4, figsize=(15, 5))
    for i in range(4):
        ax[i].imshow(activations[layer_name][0, i].cpu().numpy(), cmap='viridis')
        ax[i].axis('off')
    plt.show()

性能分析工具：

FLOPs计算
参数量统计
延迟测试

python复制from torchprofile import profile_macs

input = torch.randn(1, 3, 224, 224)
macs = profile_macs(model, input)
print(f'FLOPs: {macs / 1e9:.2f}G')

9. 模型部署与优化

将研究模型转化为生产环境可用的组件需要额外优化：

python复制# 模型量化示例
quantized_model = torch.quantization.quantize_dynamic(
    model, {nn.Linear, nn.Conv2d}, dtype=torch.qint8
)

# ONNX导出
dummy_input = torch.randn(1, 3, 224, 224)
torch.onnx.export(model, dummy_input, "model.onnx", 
                  input_names=["input"], output_names=["output"])

部署优化技术：

TensorRT加速
模型剪枝
神经架构搜索（NAS）

python复制# 模型剪枝示例
from torch.nn.utils import prune

parameters_to_prune = (
    (model.conv1, 'weight'),
    (model.fc, 'weight'),
)

prune.global_unstructured(
    parameters_to_prune,
    pruning_method=prune.L1Unstructured,
    amount=0.2,
)

10. 现代CNN架构演进趋势

从这些经典模型中，我们可以总结出CNN架构设计的几个关键方向：

模块化设计：从堆叠层到构建可复用的模块
多路径架构：并行处理不同尺度的特征
轻量化设计：深度可分离卷积等高效操作
注意力机制：自注意力与卷积的结合
神经架构搜索：自动化网络设计

python复制# 混合注意力模块示例
class CBAM(nn.Module):
    def __init__(self, channels, reduction=16):
        super(CBAM, self).__init__()
        self.channel_attention = nn.Sequential(
            nn.AdaptiveAvgPool2d(1),
            nn.Conv2d(channels, channels//reduction, 1),
            nn.ReLU(inplace=True),
            nn.Conv2d(channels//reduction, channels, 1),
            nn.Sigmoid()
        )
        self.spatial_attention = nn.Sequential(
            nn.Conv2d(2, 1, kernel_size=7, padding=3),
            nn.Sigmoid()
        )

    def forward(self, x):
        channel = self.channel_attention(x) * x
        spatial = torch.cat([channel.mean(1, keepdim=True), 
                           channel.max(1, keepdim=True)[0]], dim=1)
        spatial = self.spatial_attention(spatial)
        return channel * spatial

在实现这些经典模型的过程中，最令人惊叹的是早期研究者们在计算资源极其有限的情况下提出的创新思想。比如LeNet-5的共享权重设计，或是ResNet的残差连接，这些概念至今仍在影响最新的架构设计。

已经到底了哦

从LeNet到ResNeXt：用Python和PyTorch复现10个经典CNN模型（附完整代码）

从LeNet到ResNeXt：用Python和PyTorch复现10个经典CNN模型（附完整代码）

1. 环境配置与基础工具

2. LeNet-5：CNN的起源（1998）

3. AlexNet：深度学习的复兴（2012）

4. VGG-16：深度与规整化的胜利（2014）

5. ResNet-50：残差学习的革命（2015）

6. ResNeXt-50：基数优于深度（2017）

7. 模型训练与优化技巧

8. 模型评估与可视化

9. 模型部署与优化

10. 现代CNN架构演进趋势

内容推荐