Jetson Nano上YOLOv5模型部署避坑指南：从镜像烧录到TRT加速的完整流程

王霸鲸

Jetson Nano边缘AI部署实战：YOLOv5模型优化与避坑全攻略

在边缘计算设备上部署深度学习模型一直是开发者面临的挑战之一，特别是当需要在资源受限的Jetson Nano上运行复杂的YOLOv5目标检测模型时。本文将深入探讨从系统配置到模型加速的完整流程，聚焦实际部署中的典型问题与解决方案，帮助开发者避开那些耗费时间的"坑"。

1. Jetson Nano开发环境搭建

1.1 硬件准备与系统镜像选择

Jetson Nano作为一款性价比极高的边缘AI开发板，有2GB和4GB内存两个版本。对于YOLOv5部署，推荐使用4GB版本以获得更好的性能表现。在开始前，需要准备以下硬件：

至少32GB的高速microSD卡（建议UHS-I及以上等级）
5V/4A的DC电源适配器（USB供电可能因功率不足导致系统不稳定）
散热风扇或散热片（持续推理会产生较高热量）

镜像烧录常见问题解决方案：

写入失败：使用Etcher工具时，若出现"failed"提示，可尝试：
- 更换SD卡读卡器
- 完全格式化SD卡（选择FAT32格式）
- 关闭杀毒软件等可能干扰写入的程序
启动黑屏：检查跳线帽设置（DC供电需插上J48跳线帽），确认电源指示灯状态

提示：首次启动时建议连接显示器进行初始化设置，后续可通过SSH远程访问

1.2 系统基础配置优化

完成系统初始化后，需要进行几项关键配置：

bash复制# 更新软件包列表
sudo apt-get update

# 安装常用工具
sudo apt-get install -y curl htop tmux

网络配置技巧：

有线网络：通过nmtui命令配置静态IP（适合固定部署场景）
无线网络：需兼容的USB网卡（推荐RT5370或RTL8812AU芯片方案）

bash复制# 查看无线网卡支持情况
lsusb

2. 深度学习环境配置

2.1 CUDA与cuDNN验证

Jetson Nano预装了CUDA工具包，但需要确认环境变量配置正确：

bash复制# 检查CUDA版本
nvcc --version

# 验证cuDNN
sudo dpkg -l | grep cudnn

环境变量配置示例：

bash复制export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

若遇到libcudart.so找不到的问题，通常是因为环境变量未正确设置或需要重新登录终端。

2.2 Python环境搭建

建议使用系统自带的Python3.6，避免版本兼容问题：

bash复制# 安装pip并换源
sudo apt-get install python3-pip
pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

关键依赖安装命令：

bash复制# 安装基础科学计算库
sudo apt-get install python3-numpy python3-scipy

# 安装PyCUDA（注意版本匹配）
pip3 install pycuda==2019.1.2

3. YOLOv5模型转换与优化

3.1 模型格式转换

将训练好的YOLOv5模型（.pt）转换为TensorRT支持的格式：

bash复制# 克隆tensorrtx仓库
git clone https://github.com/wang-xinyu/tensorrtx.git -b yolov5-v5.0

# 转换权重文件
python3 gen_wts.py --weights yolov5s.pt

常见转换错误处理：

错误类型	可能原因	解决方案
Dimension mismatch	模型结构不匹配	确保tensorrtx分支与YOLOv5版本一致
CUDA out of memory	内存不足	尝试更小的模型尺寸（如yolov5s）
Unsupported ONNX opset	ONNX版本问题	导出时指定opset=11

3.2 TensorRT引擎生成

使用转换后的.wts文件生成优化后的引擎：

bash复制# 编译并生成引擎
mkdir build && cd build
cmake ..
make
sudo ./yolov5 -s ../yolov5s.wts yolov5s.engine s

性能优化参数对比：

参数	默认值	优化建议	影响
FP16	关闭	开启	速度提升30%，精度损失<1%
Batch Size	1	根据应用调整	大batch提高吞吐量
Workspace	16MB	适当增大	允许更多优化策略

4. 部署实战与性能调优

4.1 实时推理代码实现

基于TensorRT的Python推理示例：

python复制import tensorrt as trt
import pycuda.driver as cuda

class YOLOv5TRT:
    def __init__(self, engine_path):
        self.ctx = cuda.Device(0).make_context()
        self.stream = cuda.Stream()
        TRT_LOGGER = trt.Logger(trt.Logger.WARNING)
        
        with open(engine_path, "rb") as f, trt.Runtime(TRT_LOGGER) as runtime:
            self.engine = runtime.deserialize_cuda_engine(f.read())
        
        self.context = self.engine.create_execution_context()
        self._allocate_buffers()

关键性能指标监控：

bash复制# 查看GPU利用率
tegrastats --interval 1000

4.2 常见问题排查指南

内存不足错误：
- 降低模型输入分辨率
- 使用sudo nvpmodel -m 1开启最大性能模式
- 增加swap空间：

bash复制sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

推理速度慢：
- 检查是否启用了GPU加速
- 使用jetson_clocks解锁最高频率
- 确保没有thermal throttling（过热降频）
模型精度下降：
- 检查FP16模式是否影响关键类别
- 验证预处理/后处理与训练时一致
- 尝试校准INT8量化（需代表性数据集）

5. 高级优化技巧

5.1 模型剪枝与量化

对于资源受限的Jetson Nano，可以考虑：

通道剪枝：

python复制# 使用torch-pruner进行通道剪枝
from pruner import L1NormPruner
pruner = L1NormPruner(model, 0.3) # 剪枝30%通道
pruner.step()

INT8量化：

bash复制# 使用trtexec进行INT8校准
trtexec --onnx=yolov5s.onnx --int8 --calib=calib.cache

5.2 多线程流水线优化

利用Python的threading模块实现采集-推理-后处理流水线：

python复制import threading

class Pipeline:
    def __init__(self):
        self.frame_queue = Queue(maxsize=2)
        self.result_queue = Queue(maxsize=2)
        
    def capture_thread(self):
        while True:
            ret, frame = cap.read()
            self.frame_queue.put(frame)
            
    def inference_thread(self):
        while True:
            frame = self.frame_queue.get()
            results = model.infer(frame)
            self.result_queue.put(results)

这种设计可以在Jetson Nano上实现更高的帧率，充分发挥硬件潜力。

6. 实际应用案例

6.1 智能监控系统部署

配置参数示例：

yaml复制resolution: 640x480
fps: 15
model: yolov5s-int8.engine
classes: [person, car]

启动命令：

bash复制python3 monitor.py --engine yolov5s-int8.engine --rtsp rtsp://192.168.1.100

6.2 移动机器人视觉导航

关键优化点：

使用cv2.VideoCapture(0, cv2.CAP_V4L2)获得更低延迟
裁剪ROI区域减少处理数据量
实现自定义后处理过滤无关类别

python复制def process_for_navigation(detections):
    nav_objects = []
    for det in detections:
        if det['class'] in ['door', 'corridor']:
            nav_objects.append(calc_position(det))
    return plan_path(nav_objects)

在Jetson Nano上部署YOLOv5模型时，最大的挑战往往不是模型本身，而是硬件限制与软件生态的匹配。经过多次实际项目验证，保持耐心、系统性地排查问题，最终都能获得令人满意的性能表现。

已经到底了哦

精选内容

1 Qt 5.15.0 + OSG 3.6.5 环境搭建：手把手教你编译并运行 osgviewerQt 示例 2 WinForm（二）从控件封装到界面交互：构建可复用的桌面应用组件 3 别再只盯着代码了：手把手教你用UART+定时器低成本实现LIN从机节点 4 宝塔面板+PHPStudy？不！手把手教你用宝塔在Ubuntu上无痛部署Laravel项目（附PHP 8.2扩展配置清单）5 NFS共享目录挂载失败？除了权限和网络，别忘了检查文件系统这个‘隐藏选项’6 别再死记公式了！用Python+SPICE仿真，直观理解CMOS模拟电路中的PVT影响 7 从数值稳定到梯度安全：LogSumExp在损失函数中的核心应用 8 LVGL Tableview控件实战：从零到一打造嵌入式设备的『多标签』界面（附完整代码）9 别再手动算天数了！用致远OA这个自定义函数，自动搞定考勤表29/30/31日权限控制 10 UEFI原理与编程实践--Setup界面动态交互与条件渲染解析