从模型训练到板端部署：CanMV K230的kmodel转换实战解析

一林黄葉

1. 从TensorFlow到ONNX：模型转换第一步

当你训练好一个TensorFlow模型后，第一步就是要把它转换成K230开发板能识别的格式。这里我强烈推荐使用ONNX作为中间格式，而不是直接转成tflite。为什么？因为在实际项目中我发现，tflite对动态输入形状的支持不太友好，经常会在后续的kmodel转换环节出问题。

先来看个简单的例子。假设我们训练了一个预测Y=2X-1的线性回归模型：

python复制import tensorflow as tf
import numpy as np
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense

# 构建模型
model = Sequential([Dense(units=1, input_shape=[1])])
model.compile(optimizer='sgd', loss='mean_squared_error')

# 训练数据
xs = np.array([-1.0, 0.0, 1.0, 2.0, 3.0, 4.0], dtype=float)
ys = np.array([-3.0, -1.0, 1.0, 3.0, 5.0, 7.0], dtype=float)

# 训练
model.fit(xs, ys, epochs=500)

训练完成后，我们需要分两步转换：

先保存为SavedModel格式
再用tf2onnx转换成ONNX

python复制# 保存模型
model.save('linear_model')

# 转换为ONNX
import os
os.system("python3 -m tf2onnx.convert --saved-model linear_model --output model.onnx --opset 11")

这里有个坑要注意：opset版本。我实测发现K230对opset 11支持最好，太高或太低的版本都可能导致后续转换失败。转换完成后，强烈建议用onnx.checker验证一下：

python复制import onnx
onnx_model = onnx.load("./model.onnx")
check = onnx.checker.check_model(onnx_model)
print('Check: ', check)  # 输出None表示成功

2. ONNX模型维度修正：避免部署时的"惊喜"

你以为转换完ONNX就万事大吉了？Too young！我踩过最大的坑就是输入输出维度问题。用Netron打开刚才的model.onnx，你会发现输入输出形状可能是这样的：

code复制input: [None, 1]
output: [None, 1]

这种动态维度在板端运行时很容易出问题。解决方法很简单 - 手动固定维度：

python复制onnx_model = onnx.load("./model.onnx")
# 固定输入维度为[1,1]
onnx_model.graph.input[0].type.tensor_type.shape.dim[0].dim_value = 1
# 固定输出维度为[1,1] 
onnx_model.graph.output[0].type.tensor_type.shape.dim[0].dim_value = 1
onnx.save(onnx_model, './model_fixed.onnx')

这个步骤看似简单，但极其重要。我在三个不同的项目中都遇到过因为维度问题导致的推理错误，症状包括：

推理结果完全错误
内存访问越界
直接运行时崩溃

3. 使用nncase转换kmodel：量化是关键

现在来到重头戏 - 用嘉楠的nncase工具链把ONNX转成kmodel。首先确保你已经安装了nncase：

bash复制pip install nncase

转换脚本的核心是compile_kmodel函数，这里我分享一个经过实战检验的版本：

python复制import nncase
import numpy as np

def compile_kmodel(onnx_path, output_dir):
    # 1. 编译选项
    compile_options = nncase.CompileOptions()
    compile_options.target = "k230"
    compile_options.dump_ir = True  # 建议开启，方便调试
    
    # 2. PTQ量化配置
    ptq_options = nncase.PTQTensorOptions()
    ptq_options.quant_type = "uint8"  # 板端推理推荐uint8
    ptq_options.calibrate_method = "Kld"  # 对线性模型效果更好
    
    # 3. 校准数据准备
    calib_data = [np.array([[x]], dtype=np.float32) for x in [-1, 0, 1, 2, 3, 4]]
    
    # 4. 执行转换
    compiler = nncase.Compiler(compile_options)
    compiler.import_onnx(open(onnx_path, 'rb').read())
    compiler.use_ptq(ptq_options)
    compiler.set_ptq_data(calib_data)
    compiler.compile()
    
    # 5. 保存kmodel
    kmodel = compiler.gencode_tobytes()
    with open(f"{output_dir}/model.kmodel", 'wb') as f:
        f.write(kmodel)

这里有几个关键点：

校准数据：一定要用和训练数据分布相似的样本，我直接用了训练数据
量化类型：uint8在K230上效率最高，但数值范围有限
校准方法：Kld(Kullback-Leibler divergence)适合大多数场景

转换完成后，建议先用nncase的模拟器测试：

python复制def simulate_kmodel(kmodel_path, input_data):
    interpreter = nncase.Runtime.Interpreter()
    interpreter.load_model(open(kmodel_path, 'rb').read())
    
    # 设置输入
    input_tensor = interpreter.get_input_tensor(0)
    input_tensor.copy_from(input_data)
    
    # 推理
    interpreter.run()
    
    # 获取输出
    output_tensor = interpreter.get_output_tensor(0)
    return output_tensor.to_numpy()

# 测试
test_input = np.array([[10.0]], dtype=np.float32)
output = simulate_kmodel("model.kmodel", test_input)
print(f"Input: 10.0, Output: {output[0][0]}")  # 应该接近19

4. 板端部署：MicroPython实战

终于到了最后一步 - 把kmodel部署到K230开发板上。首先把kmodel文件放到SD卡的/sdcard/app/tests/目录下。

板端Python代码是这样的：

python复制import nncase_runtime as nn
import ulab.numpy as np

# 1. 加载模型
kpu = nn.kpu()
kpu.load_kmodel("/sdcard/app/tests/model.kmodel")

# 2. 准备输入
input_data = np.array([22], dtype=np.float32)
input_tensor = nn.from_numpy(input_data.reshape(1,1))

# 3. 推理
kpu.set_input_tensor(0, input_tensor)
kpu.run()

# 4. 获取输出
result = kpu.get_output_tensor(0)
output = result.to_numpy()[0][0]
print(f"Input: 22, Output: {output}")  # 预期接近43

实际部署时我遇到过几个典型问题：

内存不足：K230的内存有限，解决方案是：
- 减小模型规模
- 使用更小的数据类型
- 分块处理输入
量化误差：特别是当输入超出校准数据范围时。比如：
- 校准数据范围：[-1, 4]
- 实际输入：100
  这时输出可能会严重失真。解决方法：
- 扩大校准数据范围
- 在代码中对输入进行裁剪
性能优化：对于实时性要求高的场景，可以：
- 开启K230的双核模式
- 使用C++版本SDK（性能比MicroPython高5-10倍）

5. 调试技巧与性能优化

当模型部署后效果不理想时，可以按照以下步骤排查：

精度检查：

python复制# 在PC端用原始模型推理
pc_output = original_model.predict([[22]])

# 在板端用kmodel推理
board_output = run_kmodel("model.kmodel", [[22]])

print(f"PC结果: {pc_output}, 板端结果: {board_output}")

逐层对比：
nncase支持dump中间层结果，在CompileOptions中设置：

python复制compile_options.dump_ir = True
compile_options.dump_asm = True
compile_options.dump_dir = "./debug"

量化分析：
修改PTQTensorOptions收集量化误差：

python复制ptq_options.dump_quant_error = True
ptq_options.dump_quant_error_symmetric_for_signed = True

性能优化方面，有几个实测有效的技巧：

内存布局：使用NHWC格式通常比NCHW快15%
算子融合：在模型设计时尽量使用Conv+ReLU这样的组合
缓存利用：对于视频流处理，复用输入缓冲区可以减少内存拷贝

6. 复杂模型处理经验

当处理更复杂的模型（如MobileNet、YOLO等）时，需要额外注意：

自定义算子处理：

python复制import_options = nncase.ImportOptions()
import_options.register_custom_op("CustomOp", lambda x: ...)

混合精度量化：

python复制ptq_options.quant_scheme = "mixed"
ptq_options.quant_scheme_strict_mode = False

大模型分片：

python复制compile_options.max_memory_usage = 8 * 1024 * 1024  # 8MB
compile_options.split_w_to_act = True

我在一个图像分类项目中，将MobileNetV2成功部署到K230上的关键步骤：

将模型分为特征提取和分类头两部分
对特征提取部分使用int8量化
对分类头保持float32精度
使用分片加载机制

最终在保证95%精度的前提下，推理速度达到15FPS。

已经到底了哦

精选内容

1 AG32 MCU与AGRV2K：如何利用内置FPGA实现硬件加速与灵活扩展 2 别再只用cvtColor了！OpenCV的applyColorMap函数，让你的灰度图瞬间拥有22种‘皮肤’3 从‘过拟合’到‘稀疏解’：用Keras代码可视化L1/L2正则化如何塑造你的神经网络 4 SpringCloud实战-OpenFeign集成okHttp的进阶配置与性能调优 5 给RK3588开发板装上‘汽车神经’：手把手配置CAN总线驱动与调试（Debian11实测）6 ROS开发者的Docker可视化避坑指南：从X11转发到VNC，哪种方案更适合你？7 避坑指南：VLC RTSP推流时‘激活转码’到底该不该勾选？实测H.264与原生格式对比 8 CRC-8-SAE J1850：汽车总线数据可靠性的守护者 9 保姆级图解：PCIE链路训练LTSSM状态机，从Detect到L0到底经历了啥？10 VUE3+TS+VITE+webrtc-streamer实战：从零搭建RTSP监控视频Web播放器（避坑指南）