网络问题往往都是比较复杂的,并且通常定位问题后也无能为力,只能推动相关运营商解决;
常见网络丢包的原因:
- 骨干网拥塞
- 网络链路某个交换机坏了
- 服务器cpu负载高,数据包到网卡后cpu不能及时处理,但是缓冲区溢出,导致丢包
- 服务器网卡故障
ICMP协议
ICMP是一个网络层的协议,用来测试网络的连通性,因为ICMP非传输层,所以不需要端口号,ping
、traceroute
、mtr
都使用的是ICMP协议, 这也是ping
命令不能指定端口号的原因;ICMP只能搭配IPv4使用,如果是IPv6的情况下, 需要是用ICMPv6;
ICMP协议可以用来:
- 成功到达目标地址后,目标主机会返回确认包,从而验证联通性;
- 如果没有到达目标主机,中间节点会通知发送主机IP包被丢弃的原因;
ICMP协议的实现,是内嵌在IP包里的,IP包头部有固定的20个字节,如果IP包头里面协议字段设置为ICMP,则IP包的包体里是ICMP包体;
ICMP包体可以简单理解为type
加 content
, 有2个字节用于标识是什么类型的ICMP包,剩下的字节存储内容;ICMP的具体使用,举例如下:
-
测试连通性
ping
发送的ICMP类型为8
,目标主机返回一个 ICMP类型为0
的包,代表目标可达; - 目标不可达的原因 如果目标不可达,中间路由器可能返回网络不可到达(代码字段值为0)、主机不可达到(代码字段值为1)、协议不可到达(代码字段值为2)等等包体;
- 网络响应时间 ICMP还可以处理时间戳请求,时间戳请求报文(类型值字段13)和时间戳应答报文(类型值字段14)用于测试两台主机之间数据报来回一次的传输时间。传输时,主机填充原始时间戳,接受方收到请求后填充接受时间戳后以类型值字段14的报文格式返回,发送方计算这个时间差。
- 网络路由路径 ICMP差错控制报文中的TTL超时会回向源点发送一个时间超时报文。例如A 主机 traceroute B主机,A会封装一些分组,这些分组很特殊,例如第一个分组的TTL设置为1 ,第二个分组的TTL设置为2 以此类推.......当第一个分组到达第一个路由器时,发现TTL变成了0就会给源主机发送一个时间超时报文,这也就知道了这个分组所经过的一个路由器,同理可得其他路由器。 当最后一个分组到达B主机时,收集每个时间超时的报文中的IP 就获得了A主机到B主机的路径;
ping 命令
ping命令会先发送一个 ICMP Echo Request给对端,对端接收到之后, 会返回一个ICMP Echo Reply,若没有返回,就是超时了,会认为指定的网络地址不存在。
ping能验证网络的连通性,并会统计响应时间和TTL(IP包中的Time To Live,生存周期),也可以用于查看网络丢包率;
ping -c 5 -s 1024 -i 1 baidu.com
-c 代表发送次数
-s 代表包体字节数
-i 代表超时秒数
image.png
traceroute 命令
traceroute也是基于ICMP协议实现的。可用于打印执行主机到目标主机之前经历多少路由器。
traceroute -n baidu.com
image.png
mtr 命令
mtr
命令实际是集成了traceroute
、ping
的功能;
mtr
底层首先利用traceroute
计算出所有的路由器节点,然后针对每个路由器节点发送ping
命令,最后对数据做了汇总和展示;
# 如果不使用任何参数 mtr会动态不停的运行
sudo mtr -c 10 -r baidu.com
-c 代表发包数量
-r 代表生成report 等效于 --report
-w 代表使用hostname 而不是ip地址
image.png
Loss% 表示在每一跳的丢包率
Snt 每个中间设备收到的发送的报的数目(上图为400个包),MTR会同时对所有中间节点发送ICMP包进行测试。
Last 最后一个数据包往返时间(ms)
Avg 数据包往返平均时间(ms)
Best 数据包往返最小时间(ms)
Wrst 数据包往返最大时间(ms)
StDev 标准偏差。如果标准偏差越高,说明数据包在这个节点上的延时越分散。
如何分析MTR报告?
- 节点分析
- MTR 的输出分成三大块。根据配置,第二或第三跳一般都是本地 ISP,倒数第二或第三跳一般为目的主机的ISP。中间的节点是数据包经过的路由器。
- 分析丢包率时
- ICMP 包的速率限制和丢失可能会同时发生。如果发生包的丢失情况,我们要用倒推路径上的最低百分比来衡量。
- MTR 报告目的主机100%丢包,这可能是目的主机防火墙的原因,例如: iptables 配置丢掉 ICMP 包所致。
- 互联网设施的维护或短暂的网络拥挤可能会带来短暂的丢包率,当出现短暂的10%丢包率时候,不必担心,应用层的程序会弥补这点损失。
- 很多路由器可能会直接丢弃 ICMP 包,这时就会导致超时(???), 有时候运营商的路由器配置原因,导致 ICMP 包永远不能到达目的地. 如果最终到达了目标主机,可以忽略中间节点的(???)
- 很多时候问题是在数据包返回途中发生的。数据包可以成功的到达目的主机,但是返回过程中遇到“困难”了。所以,当问题发生后,我们通常需要收集反方向的 MTR 报告。
- 分析网络延迟
- ICMP 速率限制也可能会增加延迟,如果中间节点延迟高,最终目标主机延迟低,则是中间设备限制了 ICMP 传输速率的原因。所以一般要用最后一跳的实际延迟为准。
tcpdump 命令
tcpdump本身是排查tcp/ip 网络问题的大杀器;
tcpdump可以单独使用,但结合wireshark.app
等可视化软件来使用会更加直观;
tcpdump使用本身较为复杂,可以参考相关官方文档;
这里举例说明如何使用tcpdump抓取ICMP包:
# 在目标机器监听来源机器的icmp包
tcpdump -i en7 -n -vv -p icmp and src host 10.38.160.64
# 在源机器发送ping命令 注意接收端的包大小需要+8字节 也就是1032
ping -c 1 -s 1024 10.231.59.179
image.png
网友评论