Linux网络故障排查：连通性检测与路由追踪实战-代码聚汇网

Linux网络故障排查：连通性检测与路由追踪实战

大厂男孩的粉丝

1. Linux网络障碍诊断基础：连通性检测与路由追踪

作为一名运维工程师，每天最常遇到的故障就是"网络不通"。当服务器突然失联、服务访问异常时，快速定位网络问题是必备技能。今天分享我在实际工作中总结的Linux网络故障排查三板斧，这是经过上百次实战验证的有效方法。

网络故障排查需要遵循分层原则，就像医生看病要先量体温、测血压一样，我们首先要确认最基础的IP层连通性。很多人一上来就抓包分析，其实90%的基础网络问题用几个简单命令就能快速定位。本文将重点介绍基础连通性检测和路由追踪这两个最实用的排查手段。

2. 基础连通性检测：判断"通不通"

2.1 单主机连通性测试

ping命令是网络排查的"听诊器"，它通过发送ICMP回显请求包来测试主机间的连通性。在实际运维中，我习惯使用以下命令格式：

bash复制ping -c 4 -i 0.5 -W 2 10.0.0.12

这个命令有几个关键参数：

-c 4：发送4个探测包（默认会无限发送）
-i 0.5：设置0.5秒的发送间隔（避免洪水攻击嫌疑）
-W 2：设置2秒超时（防止长时间卡住）

注意：很多企业的内网会限制ICMP流量，如果ping不通但服务能访问，可能是防火墙策略导致。这时需要用telnet/nc测试具体服务端口。

2.2 批量网络扫描技巧

当需要检查整个网段的设备连通性时，fping比传统ping高效得多。它采用并行探测机制，扫描速度提升10倍以上：

bash复制fping -g 10.0.0.0/24 2>/dev/null | grep "is alive"

这个命令做了两处优化：

2>/dev/null：过滤掉错误输出，只显示成功结果
grep过滤：仅列出存活主机，使结果更清晰

对于特定IP段的扫描，可以这样操作：

bash复制fping -g 10.0.0.5 10.0.0.10

实战经验：在云环境排查时，经常会遇到安全组拦截ICMP的情况。这时可以改用TCP ping：
nmap -sn -PS22,80,443 10.0.0.0/24
通过探测常见服务端口来判断主机存活状态。

2.3 结果解读与排障优先级

当ping测试失败时，应按以下优先级排查：

检查本地网卡状态：ip link show
验证ARP缓存：arp -an
检查路由表：ip route show
排查防火墙规则：iptables -L -n -v
确认交换机端口状态（需登录网络设备）

常见故障模式：

本机IP配置错误
网关路由缺失
VLAN隔离问题
防火墙DROP规则

3. 网络层路由排查：定位"卡在哪"

3.1 路由追踪工具对比

当主机能通内网但无法访问外网时，需要用路由追踪工具定位故障节点。Linux下主要有三种工具：

工具	特点	适用场景
traceroute	精准但需要root权限	详细诊断网络路径
tracepath	无需特权但功能有限	快速检查基本路由
mtr	实时统计丢包和延迟	监控间歇性网络问题

3.2 traceroute高级用法

标准的路由追踪命令：

bash复制traceroute -I -n 8.8.8.8

关键参数说明：

-I：使用ICMP协议（默认UDP可能被防火墙拦截）
-n：不解析域名（加快显示速度）

进阶技巧：通过TTL限制测试特定跳数

bash复制ping -t 5 8.8.8.8  # 测试第5跳是否可达

3.3 mtr实时监控

mtr是网络诊断的"核磁共振"，它能同时显示实时延迟和丢包率：

bash复制mtr -n -c 100 -i 0.5 --report 8.8.8.8

参数解析：

-c 100：发送100个探测包
-i 0.5：每0.5秒发送一次
--report：生成统计报告（适合长期监控）

典型故障分析：

某跳延迟突然增大 → 可能是网络拥塞
特定节点100%丢包 → 可能是防火墙拦截
中间跳返回星号(*) → 设备禁用了ICMP响应

3.4 企业网络特殊场景处理

在企业网络中，经常会遇到以下特殊情况：

多路径路由：使用-T参数进行TCP探测
```
bash复制mtr -T -P 443 8.8.8.8
```
负载均衡路径：添加-r参数随机化源端口
```
bash复制traceroute -r -n 8.8.8.8
```

防火墙白名单：改用HTTP/HTTPS协议探测

bash复制curl --trace-ascii - http://example.com

4. 常见问题与实战案例

4.1 典型故障排查流程

案例：某服务器突然无法访问公网网站

基础检查：

bash复制ping -c 4 8.8.8.8
traceroute -n 8.8.8.8

发现卡在第三跳：
```
bash复制3. * * *
4. * * *
```
登录网关检查NAT规则：
```
bash复制iptables -t nat -L -n -v
```
发现MASQUERADE规则丢失，修复后恢复

4.2 云环境特殊问题

云服务器常见网络问题：

安全组未放行ICMP
弹性IP未正确绑定
VPC路由表配置错误
多网卡路由策略冲突

AWS环境诊断示例：

bash复制# 检查元数据服务连通性（验证基础网络）
curl http://169.254.169.254/latest/meta-data/

# 检查弹性网卡配置
aws ec2 describe-network-interfaces --network-interface-id eni-xxx

4.3 高级诊断技巧

使用TCP SYN探测绕过ICMP限制：

bash复制tcptraceroute -n -p 443 8.8.8.8

通过MTU检测排查分片问题：

bash复制ping -M do -s 1472 8.8.8.8  # 逐步减小1472直到能通

诊断DNS问题：
```
bash复制dig +trace example.com
```

5. 排查工具安装与配置

5.1 工具安装指南

不同Linux发行版的安装命令：

工具	CentOS/RHEL	Ubuntu/Debian
fping	`yum install fping`	`apt install fping`
mtr	`yum install mtr`	`apt install mtr`
tcptraceroute	`yum install tcptraceroute`	`apt install tcptraceroute`

5.2 持久化监控配置

对于需要长期监控的网络路径，可以设置定时任务：

bash复制# 每5分钟记录一次路由状态
*/5 * * * * /usr/bin/mtr -n -c 60 -i 1 --report 8.8.8.8 >> /var/log/mtr.log 2>&1

日志分析脚本示例：

bash复制awk '/HOST:/ {host=$2} /Loss%/{print host,$3}' /var/log/mtr.log

6. 网络诊断思维导图

完整的排查思路应该遵循以下流程：

本地网络配置检查
- IP地址
- 路由表
- DNS配置
网关连通性验证
- ARP解析
- 二层连通性
外部网络测试
- 路由追踪
- 服务端口检测
防火墙规则审计
- iptables/nftables
- 安全组规则
物理层排查
- 网线/光模块
- 交换机端口

在实际工作中，我习惯将这套方法总结为"由近及远、由简入繁"的排查原则。先从本地配置开始，逐步向外延伸，这样可以最高效地定位问题节点。