- 数据中心搬迁出现的网络问题
一个主备的架构设计,在主完全挂掉的情况下,备节点会替上去。
但是如果主并不是完全坏了就非常尴尬,这种不稳定的硬件问题导致的网络问题是非常让人纠结,比较少见。
总而言之,由于mtu 路径上大小不一致,导致顶层路由无法接收到交换机的巨帧,而且主路由器不稳定,导致的网络问题
mtu相关的问题 ping要基于路径上最大mtu的大小去ping,否则按照< =1500的mtu去ping是正常的,但是业务的流量又会收到巨帧设置的影响。
表现存储网段 ceph -s glance image-list http小包请求都没有问题,但是镜像下载,云硬盘挂载大包场景有问题
- 虚拟机port防火墙设置超时的问题
grep network-vif-plugged -r /var/log/kolla/nova/nova-compute.log
image.png
Timeout waiting for [('network-vif-plugged', u'd33c038a-e6c9-4b70-82e3-b4c28d733a97'), ('network-vif-plugged', u'aa9e0aca-472f-46dd-9972-28aeec79c8fd')] for instance with vm_state building and task_state spawning.: Timeout: 300 seconds
根据uuid查看neutron-openvswitch的log
image.png image.png
定位
grep 1a19d297-4443-4a4a-89af-41aa23ae25e2 -r /var/log/kolla/
INFO neutron.plugins.ml2.drivers.openvswitch.agent.ovs_neutron_agent [req-d7d1f0e1-b7b4-46b8-9965-175a28570ff2 - - - - -] Configuration for devices up [u'1a19d297-4443-4a4a-89af-41aa23ae25e2'] and devices down [] completed.
该步骤耗时太久,以至于超过了 300s
Preparing filters for devices set([u'1a19d297-4443-4a4a-89af-41aa23ae25e2'])
Configuration for devices up [u'1a19d297-4443-4a4a-89af-41aa23ae25e2'] and devices down [] completed.
主要在这一步
观察其他log
image.png其实并没有异常的log,而且有一个缺点是,对于某个port的操作,是类似广播的操作,所有计算节点都会对port进行检测,存在即操作,这个机制并不是很合理
网友评论