使用Shell脚本持续监控API接口响应时间-代码聚汇网

使用Shell脚本持续监控API接口响应时间

小泉水

1. 为什么需要持续监控接口响应时间

作为前端开发者，我们经常需要关注后端接口的性能表现。一个响应缓慢的接口会直接影响用户体验，导致页面加载卡顿、操作延迟等问题。特别是在以下场景中，持续监控接口响应时间显得尤为重要：

新功能上线后验证接口性能
排查生产环境偶发的接口超时问题
对比不同服务器环境的接口表现
长期监控关键接口的性能变化趋势

传统的单次curl测试只能反映某个时间点的瞬时状态，而通过编写简单的shell脚本实现持续监控，可以更全面地掌握接口性能表现。下面我将分享一个经过实战检验的监控方案。

2. 核心监控脚本解析

2.1 基础监控命令

bash复制while true; do
    curl -w "\n总时间: %{time_total}s\n" -o /dev/null -s 'https://api.example.com/data'
    echo "--- 等待 2 秒 ---"
    sleep 2
done

这个脚本的核心是curl命令配合while循环实现持续监控。让我们拆解每个参数的作用：

-w "\n总时间: %{time_total}s\n"：定义输出格式，%{time_total}变量记录从开始到传输结束的总时间
-o /dev/null：将响应内容重定向到空设备，避免输出干扰
-s：静默模式，不显示进度条和错误信息
sleep 2：每次请求间隔2秒，避免对服务器造成过大压力

2.2 关键时间变量详解

curl提供了多个时间相关的变量，可以根据需要组合使用：

变量名	说明	典型值
`time_total`	完整请求耗时	0.348s
`time_namelookup`	DNS解析时间	0.012s
`time_connect`	TCP连接建立时间	0.034s
`time_appconnect`	SSL/TLS握手时间	0.125s
`time_pretransfer`	请求准备时间	0.156s
`time_starttransfer`	首字节到达时间	0.287s

提示：在HTTPS请求中，time_appconnect会显示SSL握手耗时，如果是HTTP请求则显示为0

3. 高级监控方案实现

3.1 带时间戳的监控脚本

基础版本缺少时间记录，不便于后续分析。改进后的脚本：

bash复制while true; do
    timestamp=$(date "+%Y-%m-%d %H:%M:%S")
    curl -w "@curl-format.txt" -o /dev/null -s "https://api.example.com/data"
    echo "[$timestamp] 监控周期结束，等待2秒..."
    sleep 2
done

新建curl-format.txt文件定义输出格式：

code复制时间: ${time_total}s
DNS: ${time_namelookup}s
TCP: ${time_connect}s
SSL: ${time_appconnect}s
准备: ${time_pretransfer}s
首字节: ${time_starttransfer}s

3.2 结果重定向到日志文件

长期监控需要保存历史数据：

bash复制while true; do
    timestamp=$(date "+%Y-%m-%d %H:%M:%S")
    echo -n "[$timestamp] " >> curl-monitor.log
    curl -w "@curl-format.txt" -o /dev/null -s "https://api.example.com/data" >> curl-monitor.log
    sleep 2
done

3.3 添加异常报警机制

当响应时间超过阈值时触发报警：

bash复制THRESHOLD=1.0  # 1秒阈值

while true; do
    response_time=$(curl -w "%{time_total}" -o /dev/null -s "https://api.example.com/data")
    
    if (( $(echo "$response_time > $THRESHOLD" | bc -l) )); then
        echo "[$(date '+%Y-%m-%d %H:%M:%S')] 警告: 接口响应时间 ${response_time}s 超过阈值 ${THRESHOLD}s" >> alert.log
        # 这里可以添加邮件/短信报警逻辑
    fi
    
    sleep 2
done

4. 数据分析与可视化

4.1 使用awk分析日志

统计平均响应时间：

bash复制awk '/时间:/ {sum+=$2; count++} END {print "平均响应时间:", sum/count, "s"}' curl-monitor.log

找出最慢的5次请求：

bash复制grep "时间:" curl-monitor.log | sort -k2 -nr | head -5

4.2 生成简单报表

bash复制echo "接口性能报告" > report.txt
echo "统计时间: $(date '+%Y-%m-%d %H:%M:%S')" >> report.txt
echo "样本数量: $(grep -c "时间:" curl-monitor.log)" >> report.txt
echo "平均响应时间: $(awk '/时间:/ {sum+=$2; count++} END {print sum/count}' curl-monitor.log)s" >> report.txt
echo "最大响应时间: $(grep "时间:" curl-monitor.log | awk '{print $2}' | sort -nr | head -1)s" >> report.txt

5. 实战经验与避坑指南

5.1 DNS缓存的影响

在长时间监控中，可能会发现DNS解析时间(time_namelookup)偶尔异常。这是因为：

本地DNS缓存过期导致重新查询
DNS服务器响应不稳定
网络环境变化

解决方案：

对IP直接发起请求避免DNS查询
使用curl --dns-servers指定可靠的DNS服务器
在监控脚本中单独记录DNS时间，便于分析

5.2 连接复用优化

连续测试中，TCP连接可能会被复用，影响time_connect的准确性。要强制新建连接：

bash复制curl -w "..." --tcp-fastopen 0 --tcp-nodelay "https://..."

5.3 生产环境注意事项

监控频率不宜过高，通常2-5秒一次为宜
添加User-Agent标识，避免被WAF拦截
```
bash复制curl -A "MonitorBot/1.0" ...
```
对重要接口设置不同的阈值等级
长期监控建议使用专业的APM工具

5.4 扩展监控维度

完整的接口监控还应考虑：

返回状态码监控
响应数据大小监控
接口可用性监控
不同地域的访问差异

示例复合监控脚本：

bash复制while true; do
    result=$(curl -w "%{http_code} %{size_download} %{time_total}" -o /dev/null -s "https://...")
    read -r code size time <<< "$result"
    
    # 状态码检查
    if [ "$code" -ne 200 ]; then
        echo "[$(date)] 错误: 状态码 $code" >> error.log
    fi
    
    # 响应大小检查
    if [ "$size" -gt 102400 ]; then
        echo "[$(date)] 警告: 响应大小 ${size}字节" >> warn.log
    fi
    
    # 响应时间检查
    if (( $(echo "$time > 1.0" | bc -l) )); then
        echo "[$(date)] 警告: 响应时间 ${time}s" >> perf.log
    fi
    
    sleep 5
done

6. 性能优化建议

根据监控数据，可以针对性地优化接口性能：

DNS时间过长：
- 检查DNS服务器配置
- 考虑使用IP直连
- 增加本地DNS缓存
SSL握手耗时：
- 升级到TLS 1.3
- 优化证书链
- 启用会话复用
首字节时间慢：
- 检查后端处理逻辑
- 优化数据库查询
- 增加缓存层
下载时间长：
- 启用Gzip压缩
- 优化返回数据量
- 检查网络带宽

通过持续监控获得的这些指标，可以帮助我们精准定位性能瓶颈，而不是盲目优化。