从MobileNet到ConvNeXt：聊聊分组卷积、深度可分离卷积是如何‘偷走’FLOPs的

钢琴打假大师plus

从MobileNet到ConvNeXt：分组卷积与深度可分离卷积如何重构计算效率

在移动端和边缘计算场景中，模型的计算效率直接决定了其落地可能性。当我们翻开MobileNetV1论文时，会发现其FLOPs仅有标准卷积网络的1/9，而精度损失不到1%。这种"魔法"般的效率提升，核心在于对传统卷积运算的重新思考——分组卷积（Grouped Convolution）和深度可分离卷积（Depthwise Separable Convolution）的巧妙运用。

1. 标准卷积的计算代价与效率瓶颈

传统卷积操作可以看作是一个三维滤波器在输入特征图上的滑动计算。假设输入特征图尺寸为$H_{in}×W_{in}×C_{in}$，使用$C_{out}$个大小为$k×k$的卷积核，输出特征图尺寸为$H_{out}×W_{out}×C_{out}$时，其计算量可表示为：

python复制# 标准卷积FLOPs计算公式
def standard_conv_flops(H_out, W_out, C_in, C_out, k):
    return 2 * k * k * C_in * C_out * H_out * W_out

这个看似简单的公式背后隐藏着巨大的计算冗余。让我们看一个具体案例：

参数类型	典型值	计算量贡献
输入通道(C_in)	256	线性增长
输出通道(C_out)	512	线性增长
卷积核大小(k)	3	平方增长
特征图尺寸(H×W)	56×56	线性增长

当这些参数组合时，单层3×3卷积的FLOPs就可能达到：

code复制2 × 3 × 3 × 256 × 512 × 56 × 56 = 2318338048 (约2.3G FLOPs)

这种计算量在移动设备上几乎无法实时运行，也促使研究者寻找更高效的卷积变体。

2. 分组卷积：通道维度的计算分解

分组卷积最早出现在AlexNet中，当时是为了解决双GPU训练时的显存限制。其核心思想是将输入和输出通道分成g组，每组独立进行卷积运算。数学表达上：

标准卷积：

每个输出通道与所有输入通道连接

分组卷积：

输入/输出通道被均分为g组
每组内部的$C_{in}/g$通道只与$C_{out}/g$输出通道连接

这种设计的计算量公式变为：

python复制def grouped_conv_flops(H_out, W_out, C_in, C_out, k, groups):
    return 2 * k * k * (C_in/groups) * C_out * H_out * W_out

对比表格更直观：

卷积类型	参数量公式	FLOPs公式	g=4时的计算量比
标准卷积	$k^2C_{in}C_{out}$	$2k^2C_{in}C_{out}HW$	100%
分组卷积	$k^2(C_{in}/g)C_{out}$	$2k^2(C_{in}/g)C_{out}HW$	25%

注意：分组数g通常取2的幂次，且需满足$C_{in}$和$C_{out}$都能被g整除

ShuffleNet系列通过引入通道混洗(Channel Shuffle)操作，解决了分组卷积导致的通道间信息流通受阻问题。其关键实现仅需几行代码：

python复制def channel_shuffle(x, groups):
    batch, channels, height, width = x.size()
    channels_per_group = channels // groups
    x = x.view(batch, groups, channels_per_group, height, width)
    x = x.transpose(1, 2).contiguous()
    return x.view(batch, channels, height, width)

3. 深度可分离卷积：空间与通道的完全解耦

MobileNet提出的深度可分离卷积将标准卷积分解为两个阶段：

深度卷积(Depthwise Convolution)：
- 每个输入通道单独使用一个2D卷积核
- 输入输出通道数保持不变
- 计算空间特征
逐点卷积(Pointwise Convolution)：
- 使用1×1卷积进行通道混合
- 调整最终输出通道数

其FLOPs计算公式为：

python复制def depthwise_separable_flops(H_out, W_out, C_in, C_out, k):
    # Depthwise部分
    depthwise_flops = 2 * k * k * C_in * H_out * W_out 
    # Pointwise部分 
    pointwise_flops = 2 * 1 * 1 * C_in * C_out * H_out * W_out
    return depthwise_flops + pointwise_flops

与标准卷积的对比：

网络类型	输入尺寸	标准卷积FLOPs	深度可分离FLOPs	计算比
MobileNetV1	224×224	2.3G	0.25G	~1/9
MobileNetV2	224×224	2.3G	0.15G	~1/15

实际实现时，PyTorch中可以通过组合现有卷积层构建：

python复制class DepthwiseSeparableConv(nn.Module):
    def __init__(self, in_ch, out_ch, stride=1):
        super().__init__()
        self.depthwise = nn.Conv2d(in_ch, in_ch, kernel_size=3, 
                                 stride=stride, padding=1, groups=in_ch)
        self.pointwise = nn.Conv2d(in_ch, out_ch, kernel_size=1)
        
    def forward(self, x):
        return self.pointwise(self.depthwise(x))

4. ConvNeXt：传统卷积的现代复兴

2022年提出的ConvNeXt意外发现，当精心设计标准卷积的组合方式时，其性能可以超越Transformer。其关键改进包括：

大核卷积的现代应用：
- 使用7×7深度卷积替代3×3
- 通过膨胀卷积控制感受野
倒瓶颈结构：
- 扩展层通道数为输入4倍
- 压缩层还原目标通道数
层级设计：
- 不同阶段采用不同计算密度
- 早期层使用高分辨率低通道数

ConvNeXt的计算分配策略：

阶段	输入分辨率	通道数	主要操作	FLOPs占比
1	224×224	96	4×4 conv	5%
2	56×56	192	深度卷积	25%
3	28×28	384	深度卷积	50%
4	14×14	768	深度卷积	20%

这种设计在ImageNet上达到82.9% top-1准确率，同时保持与Swin Transformer相当的FLOPs。

5. 效率优化的实践策略

在实际模型设计中，我们需要平衡计算效率和模型性能。以下是几种经过验证的策略：

混合精度计算：

python复制model = model.half()  # 转换为半精度
for input in inputs:
    output = model(input.half())  # 输入也需转换

结构选择指南：

场景	推荐结构	理由
超轻量级	深度可分离卷积	最低计算量
中等规模	分组卷积+通道混洗	更好精度
高性能	ConvNeXt块	最优准确率

实用优化技巧：

使用1×1卷积降维后再应用大核卷积
在浅层网络使用更激进的下采样
对非关键分支使用更大的分组数

在部署阶段，还可以通过以下方式进一步优化：

python复制# 模型量化
model = torch.quantization.quantize_dynamic(
    model, {nn.Linear, nn.Conv2d}, dtype=torch.qint8
)

从MobileNet到ConvNeXt的演进告诉我们：计算效率的提升不仅来自数学上的优化，更源于对卷积本质的重新思考。当标准卷积的每个维度（空间、通道、深度）都被合理分解和重组时，FLOPs的"偷取"就变成了优雅的设计艺术。

已经到底了哦

精选内容

1 PyTorch实战：用WeightedRandomSampler解决猫狗数据集不平衡问题（附完整代码）2 Black Magic Probe实战：用F411 BlackPill实现SWD高速调试与RTT日志采集 3 ICC II时钟树综合（CTS）保姆级设置指南：从NDR规则到Skew Group避坑全流程 4 意大利PRISMA高光谱数据免费申请全攻略：从注册到下载的完整避坑指南 5 【STM32激光测距实战】基于CUBEMX与HAL库，解析STP-23模块串口中断数据采集与处理 6 从Karate俱乐部看社区发现：用真实数据集入门网络科学中的‘小团体’识别 7 ComfyUI API实战：从工作流到图像的自动化生成 8 高效能汽车电子设计：24V转12V10A同步整流AH2305D的实战应用解析 9 汇川PLC+变频器怎么玩？在手机ESim电工仿真里搭个简易传送带控制系统 10 告别折腾！Ubuntu 20.04 一站式搞定NVIDIA驱动：从驱动选择、安装到Secure Boot安全启动全配置指南