从零部署TSM：在个人电脑上构建自定义视频动作识别模型

常河

1. 为什么选择TSM模型做视频动作识别

第一次接触TSM（Temporal Shift Module）是在去年做一个智能家居项目的时候。当时需要识别老人日常生活中的跌倒动作，试过几种3D卷积网络，但我的GTX 1080显卡根本跑不动。直到发现了TSM这个神器——它通过时间位移操作捕捉视频时序特征，性能接近3D CNN，但计算量只有2D CNN的水平。

TSM的核心创新点在于"时间位移"机制。想象你在看一部电影时，大脑会自动关联前后帧的内容来理解动作。TSM也是这样，它在2D卷积网络中插入特殊模块，让网络能够"偷看"前后几帧的特征。这种设计使得我的旧显卡也能流畅训练视频模型，实测在UCF101数据集上能达到74%的准确率。

相比其他视频模型，TSM有三大优势：

硬件友好：不需要昂贵的GPU，我的笔记本GTX 1060就能训练
即插即用：可以直接替换现有2D CNN中的模块
训练简单：和普通图像分类模型相似的训练流程

2. 搭建开发环境踩坑记

去年在Windows 10上配置环境时，我遇到了几个坑。首先是PyTorch版本问题，官方代码要求1.10.0，但直接pip install会装最新版。后来发现可以用这个命令指定版本：

bash复制pip install torch==1.10.0+cu113 torchvision==0.11.1+cu113 -f https://download.pytorch.org/whl/torch_stable.html

FFmpeg的安装更是个大坑。虽然官网下载了二进制文件，但Python死活找不到。后来发现需要手动添加环境变量，还要在代码里指定路径：

python复制# 在vid2img_ucf101.py中添加
os.environ["PATH"] += os.pathsep + 'C:/ffmpeg/bin'

建议直接用conda创建虚拟环境，这是我验证过的配置清单：

Python 3.8
PyTorch 1.10.0
CUDA 11.3
FFmpeg 4.4

3. 制作自己的动作识别数据集

去年为养老院项目制作跌倒检测数据集时，我总结了一套标准化流程。首先要规划好目录结构，建议完全复现UCF101的格式：

code复制MyDataset/
├── videos/
│   ├── Falling/
│   │   ├── v_Falling_g01_c01.avi
│   │   └── v_Falling_g01_c02.avi
│   └── Walking/
│       ├── v_Walking_g01_c01.avi
│       └── v_Walking_g01_c02.avi
└── splits/
    ├── trainlist01.txt
    └── testlist01.txt

视频命名规则要注意：

g01表示第1组拍摄
c01表示该组第1个片段
每个视频建议3-5秒，太长会影响训练效果

我用Premiere Pro剪辑原始视频，导出时选择H.264编码，分辨率统一为320x240。实测发现大于640x480的视频会显著增加训练时间，但对准确率提升有限。

4. 从视频到训练帧的转换技巧

运行vid2img_ucf101.py时最容易出问题的就是帧提取环节。我的经验是：

先检查FFmpeg路径是否正确
确保输出目录有写入权限
注意帧率参数设置：

python复制# 修改这个参数控制抽帧间隔
frame_rate = 10  # 每秒提取10帧

提取后的帧会按这样的结构存放：

code复制frames/
├── Falling/
│   ├── v_Falling_g01_c01/
│   │   ├── img_00001.jpg
│   │   └── img_00002.jpg
└── Walking/
    └── v_Walking_g01_c01/
        ├── img_00001.jpg
        └── img_00002.jpg

曾遇到图片命名格式不匹配的问题，解决方案是修改dataset_config.py中的filename_tmpl参数：

python复制# 根据实际图片名前缀修改
'filename_tmpl': 'img_{:05d}.jpg',  # 或改为image_{:05d}.jpg

5. 标签生成与数据集划分的细节

标签生成是最容易出错的一环。我建议先用小批量数据测试，确认生成的标签文件格式正确。关键是要保证classInd.txt和训练/测试列表的一致性：

code复制# classInd.txt格式
1 Falling
2 Walking

# trainlist01.txt格式
Falling/v_Falling_g01_c01 1
Walking/v_Walking_g01_c01 2

我写了个自动检查脚本，可以验证标签是否正确：

python复制import os
for root, _, files in os.walk('frames'):
    for file in files:
        if not file.endswith('.jpg'):
            continue
        path = os.path.join(root, file)
        # 检查图片是否能正常打开
        try:
            Image.open(path).verify()
        except:
            print(f"损坏文件: {path}")

6. 模型训练参数调优实战

在GTX 1060上训练时，我调整了这些关键参数：

bash复制python main.py mydataset RGB \
    --arch resnet50 \
    --num_segments 8 \       # 根据GPU内存调整
    --batch-size 32 \        # 显存不足时减小
    --lr 0.01 \              # 初始学习率
    --epochs 50 \            # 小数据集可减少
    --dropout 0.5

几个实用技巧：

使用--eval-freq 5每5个epoch验证一次
添加--tensorboard可视化训练过程
遇到内存不足时，减小num_segments和batch-size

训练过程中要监控这些指标：

训练损失是否稳定下降
验证集准确率是否提升
GPU利用率是否在80%以上

7. 模型部署与应用实例

训练完成后，我用Flask搭建了一个简单的演示系统。核心推理代码如下：

python复制def predict(video_path):
    # 1. 抽帧处理
    frames = extract_frames(video_path)  
    
    # 2. 数据预处理
    transform = transforms.Compose([
        transforms.Resize(256),
        transforms.CenterCrop(224),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406],
                             std=[0.229, 0.224, 0.225])
    ])
    
    # 3. 模型推理
    with torch.no_grad():
        inputs = torch.stack([transform(f) for f in frames])
        outputs = model(inputs.unsqueeze(0))
        _, pred = torch.max(outputs.data, 1)
    
    return classes[pred.item()]

在实际部署时发现两个性能瓶颈：

视频解码速度：改用PyAV替代OpenCV提升30%速度
内存占用：使用torch.jit.trace将模型转为TorchScript格式

8. 常见问题解决方案锦囊

Q1: 训练时出现CUDA out of memory

解决方案：减小batch size，从64降到32或16
进阶方案：启用梯度累积，模拟大batch

Q2: 验证集准确率波动大

检查学习率是否过高，尝试--lr 0.001
增加--wd 1e-4权重衰减

Q3: 预测结果全部相同

可能是数据标注错误，检查classInd.txt
尝试在数据集添加更多负样本

Q4: 帧提取时卡住

确认FFmpeg版本不低于4.0
检查视频编码格式，建议统一转H.264

记得训练前先跑通UCF101示例，确保环境配置正确。我在第一次运行时花了三天排查各种环境问题，后来总结了一套环境检查脚本，可以快速验证各组件是否正常工作。

已经到底了哦

精选内容

1 AD7124-4 精度实战：从寄存器配置到系统校准的避坑指南 2 从LR(0)到LALR：构建高效语法分析器的核心算法演进与实践 3 期末求生指南：手把手教你用浏览器开发者工具绕过百一测评的切屏检测 4 SLAM基石探秘-Boost几何库在点云配准与地图构建中的实战解析 5 芯片设计新手必看：5分钟搞懂什么是工艺角（Process Corner），别再被TT/FF/SS搞晕了 6 Jackson实战：巧用@JsonSerialize与@JsonDeserialize定制复杂数据转换 7 保姆级教程：手把手教你用WinRM远程管理Windows 10（附防火墙、网络类型报错解决方案）8 从CTFshow靶场实战出发：手把手教你用Flask/Jinja2的SSTI漏洞拿Flag（附完整Payload分析）9 Unity C#编程避坑指南：别再乱用public和private了，聊聊封装与访问修饰符的正确姿势 10 Aspose-Words与POI-TL实战：集成License.xml实现Word/PDF无水印导出