Yolov5实战：从零构建专属数据集的完整训练指南

一个灵活的死胖子

1. 环境准备与YOLOv5安装

第一次接触YOLOv5时，我被它的"开箱即用"特性惊艳到了。相比其他需要复杂配置的目标检测框架，YOLOv5的安装过程简单得让人难以置信。不过为了避免新手踩坑，我还是建议按照这个标准化流程来操作。

Python环境是第一个门槛。我强烈建议使用3.8或3.9版本，这两个版本与PyTorch的兼容性最稳定。去年我在3.10环境里折腾了半天，各种奇怪的报错让我差点放弃。安装完Python后，用这个命令检查版本：

bash复制python --version

接下来是PyTorch的安装。这里有个小技巧：先去PyTorch官网(https://pytorch.org)生成安装命令。根据你的显卡选择CUDA版本，如果没有NVIDIA显卡就直接选CPU版本。我常用的安装命令是这样的：

bash复制pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113

YOLOv5的克隆和依赖安装更简单：

bash复制git clone https://github.com/ultralytics/yolov5
cd yolov5
pip install -r requirements.txt

注意：如果安装过程中出现超时错误，可以在命令后面加上-i https://pypi.tuna.tsinghua.edu.cn/simple使用国内镜像源

验证安装是否成功时，我习惯用这个测试命令：

bash复制python detect.py --weights yolov5s.pt --source data/images/bus.jpg

如果能看到输出目录里生成了一张带检测框的bus.jpg，说明环境已经准备就绪。

2. 数据集构建全流程

2.1 数据采集与整理

构建数据集就像盖房子打地基，这个环节偷懒后面就会吃亏。我建议按照这个目录结构组织数据：

code复制VOCData/
├── images/       # 存放所有原始图片
└── labels/       # 存放标注文件（后续生成）

采集数据时要注意这些细节：

图片格式统一用jpg或png
文件名不要用中文和特殊符号
尽量保证每张图片中目标占比不小于5%
光照条件、拍摄角度要多样化

我常用的图片采集方式：

用手机或相机实地拍摄
从公开数据集下载相关图片
使用爬虫工具抓取网络图片（注意版权）
视频抽帧工具提取关键帧

对于视频抽帧，这个Python脚本很实用：

python复制import cv2

video_path = "your_video.mp4"
output_dir = "output_frames"
interval = 10  # 每隔10帧取1张

cap = cv2.VideoCapture(video_path)
count = 0
while cap.isOpened():
    ret, frame = cap.read()
    if not ret:
        break
    if count % interval == 0:
        cv2.imwrite(f"{output_dir}/frame_{count}.jpg", frame)
    count += 1
cap.release()

2.2 数据标注实战

LabelImg是我最推荐的标注工具，安装方法很简单：

bash复制pip install labelImg
labelImg  # 启动工具

标注时要注意这些细节：

框选要完全贴合目标边缘
同类目标使用相同标签名
模糊不清的目标不要标注
保持标签命名风格一致（全小写或驼峰式）

标注完成后，你会得到一组XML文件，每个XML对应一张图片的标注信息。比如：

xml复制<annotation>
    <object>
        <name>cat</name>
        <bndbox>
            <xmin>100</xmin>
            <ymin>200</ymin>
            <xmax>300</xmax>
            <ymax>400</ymax>
        </bndbox>
    </object>
</annotation>

3. 数据预处理与配置

3.1 数据集划分

好的数据集应该按7:2:1的比例分为：

训练集：用于模型学习
验证集：用于调参
测试集：用于最终评估

这个Python脚本可以自动完成划分：

python复制import os
import random

def split_dataset(image_dir, train_ratio=0.7, val_ratio=0.2):
    all_images = [f for f in os.listdir(image_dir) if f.endswith('.jpg')]
    random.shuffle(all_images)
    
    total = len(all_images)
    train_end = int(total * train_ratio)
    val_end = train_end + int(total * val_ratio)
    
    return {
        'train': all_images[:train_end],
        'val': all_images[train_end:val_end],
        'test': all_images[val_end:]
    }

3.2 标注格式转换

YOLOv5需要特定的txt标注格式：

code复制<class_id> <x_center> <y_center> <width> <height>

这个转换脚本可以将XML转为YOLO格式：

python复制import xml.etree.ElementTree as ET

def xml_to_yolo(xml_path, classes):
    tree = ET.parse(xml_path)
    root = tree.getroot()
    
    size = root.find('size')
    img_w = float(size.find('width').text)
    img_h = float(size.find('height').text)
    
    yolo_lines = []
    for obj in root.iter('object'):
        cls = obj.find('name').text
        if cls not in classes:
            continue
            
        cls_id = classes.index(cls)
        box = obj.find('bndbox')
        xmin = float(box.find('xmin').text)
        ymin = float(box.find('ymin').text)
        xmax = float(box.find('xmax').text)
        ymax = float(box.find('ymax').text)
        
        # 转换为YOLO格式
        x_center = (xmin + xmax) / 2 / img_w
        y_center = (ymin + ymax) / 2 / img_h
        width = (xmax - xmin) / img_w
        height = (ymax - ymin) / img_h
        
        yolo_lines.append(f"{cls_id} {x_center} {y_center} {width} {height}")
    
    return yolo_lines

3.3 配置文件设置

在data目录下创建my_data.yaml，内容模板：

yaml复制train: ../VOCData/images/train
val: ../VOCData/images/val
test: ../VOCData/images/test

nc: 3  # 类别数
names: ['cat', 'dog', 'person']  # 类别名称

4. 模型训练技巧

4.1 训练参数配置

启动训练的基本命令：

bash复制python train.py --img 640 --batch 16 --epochs 100 --data data/my_data.yaml --cfg models/yolov5s.yaml --weights yolov5s.pt

关键参数说明：

--img：输入图像尺寸（必须是32的倍数）
--batch：批次大小（根据显存调整）
--epochs：训练轮次
--data：数据集配置文件
--cfg：模型配置文件
--weights：预训练权重

提示：如果遇到CUDA内存不足，尝试减小batch size或降低图像尺寸

4.2 训练过程监控

使用TensorBoard监控训练进度：

bash复制tensorboard --logdir=runs

重点关注这些指标：

train/box_loss：边界框回归损失
train/obj_loss：目标检测损失
train/cls_loss：分类损失
metrics/precision：精确率
metrics/recall：召回率
metrics/mAP@0.5：平均精度

4.3 常见问题解决

Loss不下降：
- 检查学习率（默认0.01可能太大）
- 增加数据增强参数
- 检查标注质量
过拟合：
- 增加数据量
- 使用更小的模型（如yolov5n）
- 添加正则化（--weight_decay参数）
训练速度慢：
- 使用--device 0指定GPU
- 增大--workers数量
- 开启--cache参数缓存数据

5. 模型评估与部署

5.1 性能评估

使用val.py脚本评估模型：

bash复制python val.py --weights runs/train/exp/weights/best.pt --data data/my_data.yaml --img 640

关键评估指标：

mAP@0.5：IoU阈值为0.5时的平均精度
mAP@0.5:0.95：IoU阈值从0.5到0.95的平均精度
推理速度：每张图片的处理时间

5.2 模型导出

导出为ONNX格式便于部署：

bash复制python export.py --weights best.pt --include onnx

支持的导出格式：

TorchScript (.pt)
ONNX (.onnx)
TensorRT (.engine)
CoreML (.mlmodel)

5.3 实际应用示例

检测单张图片：

bash复制python detect.py --weights best.pt --source test.jpg

实时摄像头检测：

bash复制python detect.py --weights best.pt --source 0

批量处理视频：

bash复制python detect.py --weights best.pt --source input.mp4

在Python代码中调用模型：

python复制import torch

model = torch.hub.load('ultralytics/yolov5', 'custom', path='best.pt')
results = model('test.jpg')
results.show()  # 显示结果
print(results.pandas().xyxy[0])  # 打印检测结果

记得训练完成后，把最佳模型（best.pt）和类别配置文件保存好，这是你辛苦训练的成果。在实际项目中，我通常会保留以下几个文件：

best.pt：最佳权重
last.pt：最后权重
opt.yaml：训练配置
results.png：训练曲线
val_batch_labels.jpg：验证样本示例

已经到底了哦

精选内容

1 从入门到精通：解读中国电子学会Scratch图形化编程1-4级能力进阶图谱 2 Mac上IDEA里Maven deploy总报401？别急，先检查这两个配置文件是否‘对暗号’3 手把手教你用STM32CubeMX配置TOF Sense激光测距模块（串口通信版）4 深入浅出：用STM32的DMA+PWM驱动WS2812，从时序分析到代码实现的完整思路 5 Jetson平台Ubuntu系统——APT一键部署CUDA与cuDNN实战指南（基于Jetson AGX Orin验证）6 在Windows 11的WSL2里，从零编译SWAN 41.45波浪模型（保姆级避坑指南）7 UUV Simulator环境搭建避坑指南：从虚拟机配置到ROS Noetic与Gazebo11的精准部署 8 Windows Server上免费搭建Kiwi Syslog Server：手把手教你集中管理网络设备日志（含注册激活指南）9 用C++手把手实现四种页面置换算法（附完整可运行代码）10 WPF进阶：利用Interaction.Triggers实现任意事件到命令的绑定与参数传递