从零到一：实战YOLO-NAS自定义数据集训练全流程

钱亚锋

1. YOLO-NAS初探：为什么选择它做目标检测？

第一次接触YOLO-NAS时，我和大多数开发者一样好奇：在已有YOLOv8等成熟方案的情况下，为什么要选择这个新模型？实测下来发现，它最大的优势在于精度与速度的完美平衡。比如在工业零件检测项目中，相同硬件条件下，YOLO-NAS的mAP比YOLOv8高出3-5%，而推理速度还能快20%左右。这种提升对于需要实时处理的产线质检场景简直是福音。

模型架构上，YOLO-NAS采用了**神经架构搜索(NAS)**技术自动优化网络结构。简单理解就是让AI自己设计最适合目标检测任务的神经网络，而不是完全依赖人工设计。这带来两个实际好处：一是模型更"紧凑"，减少了冗余计算；二是特征提取更高效，对小目标检测尤其明显。我曾对比过同一张包含微小电子元件的PCB板检测效果，YOLO-NAS能识别出更多0.5mm以下的焊点缺陷。

部署灵活性也是亮点。支持从云端服务器到边缘设备（如Jetson系列）的全场景部署。最近帮客户在树莓派5上部署yolo_nas_s模型，640x640分辨率下能达到17FPS，完全满足他们的智能门禁需求。三种预训练模型尺寸（S/M/L）对应不同的计算需求，开发者可以根据硬件条件灵活选择。

2. 环境搭建：避坑指南与性能优化

新手最容易踩的坑就是环境配置。根据我的经验，强烈建议使用conda创建独立环境。最近在Ubuntu 22.04上测试时，直接用pip安装会出现PyTorch版本冲突。以下是经过验证的稳定配置方案：

bash复制conda create -n yolo_nas python=3.8
conda activate yolo_nas
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 --extra-index-url https://download.pytorch.org/whl/cu113
pip install super-gradients==3.1.1

如果使用GPU训练，务必检查CUDA驱动兼容性。遇到"CUDA out of memory"错误时，可以尝试以下优化：

减小batch_size（建议从8开始尝试）
使用混合精度训练（在train_params中添加mixed_precision=True）
启用梯度检查点（模型初始化时设置checkpoint=True）

对于没有GPU的开发者，Colab是个不错的临时方案。但要注意免费版的内存限制——当训练超过2000张图片时，建议将图片resize到640x640以下。上周帮学员调试时发现，把输入尺寸从1280降到640，训练速度提升4倍，内存占用减少60%，而精度只下降约1.2%。

3. 数据准备：从原始素材到YOLO格式

真实项目中最耗时的往往是数据准备阶段。以我们做的安全帽检测项目为例，原始数据可能来自：

监控摄像头拍摄的JPEG序列（需注意帧采样率）
手机拍摄的现场照片（注意统一分辨率）
公开数据集补充（如Roboflow中的安全防护装备数据集）

数据处理的关键步骤：

3.1 标注规范化

使用LabelImg或CVAT标注时，要特别注意：

标签命名统一（如"hard_hat"而非"hat"/"helmet"混用）
完全包裹目标的矩形框（但不要留太多边缘空隙）
遮挡目标的处理策略（建议标注可见部分）

3.2 数据增强策略

在super-gradients中可以通过transforms参数配置增强策略。对于工业场景推荐：

python复制train_params = {
    "augmentations": {
        "RandomHorizontalFlip": {"prob": 0.5},
        "RandomAffine": {"degrees": 10, "translate": 0.1, "scale": (0.8, 1.2)},
        "ColorJitter": {"brightness": 0.2, "contrast": 0.2, "saturation": 0.2}
    }
}

但要注意，增强过度反而会降低效果。有个反例：某次添加了过度的色彩抖动，导致模型将黄昏时分的反光误识别为安全帽。

3.3 数据集划分技巧

建议按7:2:1划分训练/验证/测试集。特殊场景要注意：

时间序列数据（如监控视频）应按时间划分，避免前后帧同时出现在不同集合
类别极度不均衡时（如缺陷检测中的正负样本），使用分层抽样

4. 模型训练：参数调优实战心得

开始训练前，建议先用5%的数据跑一个快速测试（设置max_epochs=5）。这能快速发现数据或配置问题，避免浪费几个小时才发现标注错误。以下是经过多个项目验证的基准参数：

参数	yolo_nas_s	yolo_nas_m	yolo_nas_l
batch_size	32-64	16-32	8-16
初始学习率	0.001	0.0008	0.0005
预热epoch	3	5	5
优化器	AdamW	AdamW	AdamW

学习率调整是门艺术。我们发现采用余弦退火（Cosine）比阶跃式（Step）更稳定。示例配置：

python复制train_params = {
    "lr_updates": [100, 150, 180],
    "lr_decay_factor": 0.1,
    "lr_mode": "Cosine",
    "cosine_final_lr_ratio": 0.01,
    "warmup_initial_lr": 1e-6,
    "warmup_mode": "linear"
}

训练过程监控建议同时使用TensorBoard和W&B。重点关注三个指标：

mAP@0.5:0.95 - 综合精度
Precision-Recall曲线 - 查全率与查准率平衡
GPU-Util - 硬件利用率

遇到loss震荡时，可以尝试：

增大warmup_epochs（给模型更长的"热身"时间）
添加梯度裁剪（gradient_clip_val=0.1）
调整正样本权重（对密集目标检测特别有效）

5. 模型评估与部署落地

训练完成后，建议在测试集上运行完整评估。super-gradients提供的DetectionMetrics_050非常实用：

python复制metrics = [
    DetectionMetrics_050(
        score_thres=0.1,
        num_cls=len(classes),
        post_prediction_callback=PPYoloEPostPredictionCallback(
            score_threshold=0.01,
            nms_threshold=0.7
        )
    )
]

实际部署时，这几个优化技巧很实用：

模型量化：使用model.quantize()可将模型大小压缩至1/4，速度提升2倍
TensorRT加速：转换后推理速度可再提升30-50%
多尺度推理：对大小差异大的目标，采用[640,960]多尺度输入

最近帮物流客户部署的包裹分拣系统就采用了yolo_nas_m+TensorRT方案，在Jetson AGX Orin上实现了120FPS的实时处理。关键是要在精度和速度间找到平衡点——我们最终选择将置信度阈值设为0.25，既保证了95%以上的检出率，又控制了误报在可接受范围。

已经到底了哦

精选内容

1 【多模态】RegionCLIP 实战：从零构建区域级视觉-语言预训练模型 2 避开这3个坑，你的fsQCA结果才靠谱：PRI一致性、必要条件与核心条件解读实战 3 Vue3+uniapp实战：基于uview-plus与Pinia的底部导航栏状态管理方案 4 R语言实战：模型性能提升的量化评估——NRI与IDI计算指南 5 新手避坑指南：用STM32F103C8T6+L298N搭建智能小车，这些材料千万别买错（附完整清单）6 从《内容示例》出发：深入解析Common UI Activatable Widgets的激活机制与实战应用 7 若依Vue前端与Activiti7工作流引擎的无缝集成实践 8 Maven构建遇阻：深度解析与修复 parent.relativePath 指向错误 9 瑞数6补环境通杀实战：某监局站点Node环境检测绕过与代理调试 10 OBS Studio插件开发实战：从零写一个自定义视频源插件（Windows平台）