Docker容器化AI模型性能测试方案与实践

鲸喵爱面包蛋糕芝

1. 项目概述：基于Docker的evalscope性能测试方案

在AI模型服务部署和性能调优过程中，如何准确测量吞吐量（TPM）、请求速率（RPM）以及响应延迟（TTFT/TPOT）是每个运维工程师必须掌握的技能。本文将分享一套基于Docker容器化的evalscope测试方案，通过标准化环境构建和自动化测试流程，实现可重复、隔离的性能基准测试。

这套方案的核心价值在于：

通过Docker实现测试环境的一次构建、随处运行
使用挂载卷机制实现测试数据持久化
提供完整的TPM/RPM/TTFT/TPOT测试命令模板
包含数据集生成脚本和参数优化建议

2. 环境准备与容器部署

2.1 Docker镜像构建

首先需要准备Dockerfile构建测试环境基础镜像。虽然原文未提供Dockerfile具体内容，但根据evalscope的使用场景，典型的Dockerfile应包含以下要素：

dockerfile复制FROM python:3.9-slim

WORKDIR /work

# 安装系统依赖
RUN apt-get update && apt-get install -y \
    git \
    && rm -rf /var/lib/apt/lists/*

# 安装evalscope及其依赖
RUN pip install evalscope openai requests tqdm

# 设置容器默认工作目录
VOLUME ["/work/outputs"]

构建镜像时使用以下命令（注意最后的点表示使用当前目录的Dockerfile）：

bash复制docker build -t eva .

提示：建议在Dockerfile中固定Python包版本以避免兼容性问题，例如pip install evalscope==1.2.3

2.2 容器运行与目录挂载

运行容器时需要特别注意数据持久化问题。通过-v参数将宿主机目录挂载到容器内：

bash复制docker run -it -d --name eva-container -v $(pwd)/outputs:/work/outputs eva

这个命令的关键参数解析：

-it：保持交互模式并分配伪终端
-d：后台运行容器
--name：指定容器名称便于管理
-v：将宿主机./outputs目录挂载到容器内的/work/outputs

经验：挂载目录使用绝对路径更可靠，$(pwd)会自动替换为当前目录的绝对路径

2.3 容器内操作与文件传输

进入容器执行命令：

bash复制docker exec -it eva-container bash

从宿主机复制测试文件到容器内：

bash复制docker cp prompt_10k.txt bb452a757455:/work

注意：容器ID可以通过docker ps查看，建议使用容器名称替代ID，如docker cp prompt_10k.txt eva-container:/work

3. 测试数据集准备

3.1 TPM测试数据集生成

TPM（Tokens Per Minute）测试需要特定结构的文本数据。使用提供的Python脚本生成基准数据集：

python复制python3 - << 'PY'
base = """You are running a throughput benchmark.
Rules:
- Do NOT stop early.
- Do NOT summarize.
- Do NOT explain.
- Output must be continuous plain text.
- Keep generating until you hit the maximum output tokens.

Task:
Repeat the paragraph below exactly, over and over, until the output limit is reached.

Paragraph:
The quick brown fox jumps over the lazy dog. This text exists only for throughput benchmarking.
"""
prompt = (base + "\n") * 20  # 建议 10~30，别太长
with open("tpm_dataset.txt", "w", encoding="utf-8") as f:
    f.write(prompt.replace("\n", " ") + "\n")
print("wrote tpm_dataset.txt")
PY

脚本设计要点：

使用固定文本避免模型理解偏差
明确指令防止模型提前终止
移除换行符确保token计数准确
重复段落创建足够长的上下文

技巧：调整重复次数(20)可控制数据集大小，建议根据模型上下文长度选择

4. 性能测试执行

4.1 TPM吞吐量测试

bash复制evalscope perf \
  --api openai \
  --url "${CTYUN_URL}" \
  --model "${MODEL_ID}" \
  --api-key "${CTYUN_APP_KEY}" \
  --dataset custom \
  --dataset-path ./tpm_dataset.txt \
  --rate -1 \
  --parallel 29 30 31 \
  --number 80 160 80 \
  --max-tokens 2048 \
  --min-tokens 2048 \
  --temperature 0 \
  --top-p 1 \
  --stream

参数解析：

--parallel 29 30 31：测试三个不同并发级别
--number 80 160 80：每个并发级别的请求数
--max/min-tokens 2048：固定输出长度
--stream：启用流式传输模拟真实场景

实测建议：首次测试建议降低并发和请求数，确认系统稳定性后再逐步增加

4.2 RPM请求速率测试

bash复制evalscope perf \
  --api openai \
  --url "$CTYUN_URL" \
  --api-key "$CTYUN_APP_KEY" \
  --model "$MODEL_ID" \
  --dataset custom \
  --dataset-path /work/prompts.txt \
  --number 500 \
  --parallel 30 \
  --rate -1 \
  --max-tokens 1 \
  --min-tokens 1 \
  --temperature 0.0 \
  --no-stream

关键差异：

--max-tokens 1：最小化响应体
--no-stream：禁用流式传输
更高数量的请求(500)测试API吞吐量

4.3 极限压力测试（摸高）

bash复制evalscope perf \
  --api openai \
  --url "$CTYUN_URL" \
  --api-key "$CTYUN_APP_KEY" \
  --model "$MODEL_ID" \
  --dataset custom \
  --dataset-path /work/prompts.txt \
  --number 3000 \
  --parallel 60 \
  --rate -1 \
  --max-tokens 1 \
  --min-tokens 1 \
  --temperature 0.0 \
  --no-stream

设计考量：

超高并发(60)和请求数(3000)
用于确定系统绝对上限
通常会导致错误率上升，需监控系统状态

4.4 延迟测试（TTFT/TPOT）

bash复制evalscope perf \
  --api openai \
  --url "$URL" \
  --api-key "$APPKEY" \
  --model "$MDID" \
  --prompt @./prompt_10k.txt \
  --max-tokens 1000 \
  --stream \
  --parallel 30 \
  --number 600 \
  --rate -1

延迟测试特点：

使用更长提示(prompt_10k.txt)
测量首token到达时间(TTFT)
测量输出token间隔(TPOT)
适中的并发水平(30)模拟真实负载

5. 测试优化与问题排查

5.1 参数调优经验

并发数选择：
- 从CPU核心数的1/4开始逐步增加
- 观察错误率变化，超过5%应降低并发
请求量级：
- 初始测试100-200请求
- 正式测试至少1000请求获取稳定数据
Token长度：
- TPM测试使用模型最大上下文长度的50-80%
- RPM测试使用最小token数

5.2 常见错误处理

连接超时：

bash复制# 检查容器网络模式
docker inspect eva-container | grep NetworkMode
# 建议使用host模式减少NAT开销
docker run --network host ...

认证失败：

确保API_KEY包含在容器环境中

bash复制docker exec -it eva-container env | grep CTYUN

数据集路径错误：

bash复制docker exec -it eva-container ls -l /work

5.3 结果分析要点

TPM测试：
- 关注稳定状态下的token输出速率
- 排除初始冷启动阶段数据
RPM测试：
- 区分成功请求和失败请求
- 计算有效RPM而非单纯请求数
延迟测试：
- 区分P50/P90/P99分位数
- 注意长尾请求的影响

6. 生产环境建议

在实际部署中，我们进一步优化了测试流程：

使用Docker Compose管理多容器测试：

yaml复制version: '3'
services:
  tester:
    image: eva
    volumes:
      - ./outputs:/work/outputs
    environment:
      - CTYUN_URL=${CTYUN_URL}
      - MODEL_ID=${MODEL_ID}

集成到CI/CD流水线：

bash复制# 样例GitLab CI配置
stages:
  - test

performance_test:
  stage: test
  image: docker:latest
  services:
    - docker:dind
  script:
    - docker build -t eva .
    - docker run --env-file .env eva python generate_dataset.py
    - docker run --env-file .env eva evalscope perf ...