别再只会用top了！这5个Linux内存/CPU监控工具，运维老鸟都在用

MICDEL

别再只会用top了！这5个Linux内存/CPU监控工具，运维老鸟都在用

当服务器突然响应变慢，或是某个应用莫名其妙吃掉大量资源时，大多数人的第一反应是打开top命令。但真实的生产环境排查往往需要更精准的手术刀——不同的性能问题需要不同的诊断工具。本文将带你突破top的局限，掌握五种专业级监控工具的实战组合拳。

1. 监控工具选型决策树

遇到性能问题时，先问自己三个关键问题：

需要瞬时快照还是持续追踪？
- ps/free适合快速抓取当前状态
- atop/nmon适合长期记录趋势

关注用户进程还是系统级指标？

bash复制# 用户级进程监控首选
htop -u www-data
# 系统级资源分析首选
atop -m

是否需要历史数据对比？

工具历史记录采样频率数据粒度

nmon 支持可配置系统+进程级

atop 支持固定详细进程快照

htop 不支持实时交互式进程视图

工具	历史记录	采样频率	数据粒度
nmon	支持	可配置	系统+进程级
atop	支持	固定	详细进程快照
htop	不支持	实时	交互式进程视图

提示：当需要快速定位内存泄漏时，优先使用htop的RES内存排序；分析CPU毛刺则用atop的历史回放功能。

2. 被低估的经典组合：ps + free

2.1 ps的进阶用法

除了常见的aux参数，这些组合能快速定位问题：

bash复制# 找出内存增长最快的进程（按RSS变化率排序）
ps -eo pid,user,%mem,rss,comm --sort=-%mem | head -n 10

# 统计Java进程的总内存占用（单位MB）
ps -C java -o rss= | awk '{sum+=$1} END {print sum/1024 "MB"}'

2.2 free的真实含义解密

free -m的输出常被误读，关键指标的实际意义：

available ≠ free：

bash复制# 计算真正可用内存（包含可回收缓存）
awk '/MemAvailable/ {print $2/1024 "MB"}' /proc/meminfo

buffer/cache的妙用：
通过手动清除缓存来测试真实内存压力：
```
bash复制sync && echo 3 > /proc/sys/vm/drop_caches
```

3. htop：交互式监控的艺术

3.1 超越top的杀手特性

树状视图：按F5展示进程父子关系，轻松发现僵尸进程
动态过滤：按F4输入STATE=S快速定位休眠进程
鼠标操作：直接点击表头排序，右键结束进程

3.2 定制你的监控面板

修改~/.config/htop/htoprc实现：

高亮关键进程：

ini复制highlight_base_name=1
highlight_megabytes=1

添加自定义计数器：

bash复制# 显示每个进程的IO等待时间占比
echo "CPUIOWAIT=100*(delayacct_blkio_ticks/(utime+stime))" >> ~/.config/htop/meters

4. atop：时间旅行调试器

4.1 历史回溯实战

bash复制# 记录每10秒采样一次（持续1小时）
atop -w /tmp/atop.log 10 360

# 回放特定时间点的数据
atop -r /tmp/atop.log -b 14:30 -e 14:45

4.2 关键性能指标解析

CPU压力识别：
sys值突增可能预示系统调用过多
内存瓶颈信号：
ST列显示进程是否因内存不足被交换

5. nmon：一站式性能仪表盘

5.1 企业级监控方案

bash复制# 每5秒采集一次，共记录12小时（生成CSV）
nmon -f -s 5 -c 8640 -t

配合nmon_analyser生成包含以下关键视图的报告：

CPU使用率热力图
内存消耗趋势线
磁盘IOPS矩阵

5.2 /proc/meminfo深度解读

通过脚本监控关键指标变化：

bash复制watch -n 1 'grep -e MemFree -e Buffers -e Cached /proc/meminfo | awk '\''{printf "%s=%.2fMB ",$1,$2/1024}'\'''

重点关注：

Slab异常增长可能预示内核对象泄漏
CommitLimit接近Committed_AS时需警惕OOM

6. 实战排查指南

案例1：内存缓慢泄漏

用htop按内存排序，标记可疑进程
通过atop历史记录确认增长趋势
使用pmap -x <PID>分析进程内存分布

案例2：CPU间歇性飙高

bash复制# 捕获CPU使用率前5的进程（每秒刷新）
while true; do 
  ps -eo pcpu,pid,user,args --sort=-pcpu | head -n 6
  sleep 1
done

案例3：磁盘IO瓶颈

bash复制# 结合nmon和iotop数据
iotop -o -b -n 5 | awk '/Actual/ {print $12,$10}'

已经到底了哦

精选内容

1 Swin Transformer实战：从零构建图像分类模型并部署推理 2 UE5 Lumen性能调优实战：从入门到精通的配置指南 3 Rime输入法深度定制：打造专属Emoji联想输入方案 4 VOFA+绘图全攻略：从FireWater协议解析到炫酷数据可视化 5 从视差到深度：Python实战双目视觉三维感知与测距 6 告别加密音乐：用Python脚本一键批量转换网易云.ncm格式到MP3/FLAC（附完整代码）7 （六）立创EDA之3D模型绑定实战：从模型库管理到PCB预览 8 安信可开发实战 | 解锁ESP-C3-12F内置USB直连烧录，告别转接器，实现极速固件更新 9 用C++ graphics.h给算法可视化：从高斯分布到五角星绘制实战 10 别再傻傻拼手速了！用Java实现微信抢红包的两种核心算法（附完整可运行代码）

别再只会用top了！这5个Linux内存/CPU监控工具，运维老鸟都在用

别再只会用top了！这5个Linux内存/CPU监控工具，运维老鸟都在用

1. 监控工具选型决策树

2. 被低估的经典组合：ps + free

2.1 ps的进阶用法

2.2 free的真实含义解密

3. htop：交互式监控的艺术

3.1 超越top的杀手特性

3.2 定制你的监控面板

4. atop：时间旅行调试器

4.1 历史回溯实战

4.2 关键性能指标解析

5. nmon：一站式性能仪表盘

5.1 企业级监控方案

5.2 /proc/meminfo深度解读

6. 实战排查指南

案例1：内存缓慢泄漏

案例2：CPU间歇性飙高

案例3：磁盘IO瓶颈

内容推荐