今天实施了一项割接,华为MA5603T与思科NCS540对接,记一下碰到的几个坑。
MA5603T原本通过主备板的两套4*GE口上行到华为NE05E上,现在要把上行链路割接到思科NCS540上。
碰到的第一个问题是,MA5603T的上行链路配置了link-aggregation后,lacp始终起不来,所有端口都是down的。在NCS540上debug信息显示未收到对端LACPDU。
首先开了个单子到华为,搜集了一大堆信息后,华为专家给出的方案是强制速度和端口类型:
Interface SCU 0/slotid
display port state { portid | all }
Auto-neg <portid> enable/disable
speed { portid | all } { 10 | 100 | 1000 | 10000 }
port type { portid | all } { GE | FE }
quit
不过回复速度太慢,我们刚好有上行板,决定直接改2*10GE上行得了,这个方案没有验证,不知道是否可行。
OK,在申请的维护窗口内开始干活。
两块单板(H802X2CS)插入后,board add确认,配置link-aggregation:
link-aggregation 0/8 0 egress-ingress workmode lacp-static
link-aggregation add-member 0/8/0 0/9 0
link-aggregation lacp-key 0/8/0 2
#port vlan 加到上行口
port vlan 1 to 101 0/8 0
NCS上配置Bundle-ethernet:
interface Bundle-Ether5
lacp mode active
lacp system priority 5
bundle load-balancing hash src-ip
bundle minimum-active links 1
load-interval 30
#绑定端口 Ten0/0/0/0 和Ten0/0/0/1
interface TenGigE0/0/0/0
bundle id 5 mode active
bundle port-priority 5
lacp period 1000
lldp
enable
!
。。。
这时候,第一个坑出现了。
Ping OLT地址时通时不通,traceroute的时候,有时候会跑到别的路由器,看起来很像是地址重复或者环路。按着个思路没查到什么问题,断开连接就ping不通了,说明不是地址重复。
查看NCS上BE端口状态,发现只有一个10G链路,其他都是GE,这是NCS540没有正确识别光模块。 复位光模块,再看端口自动变成了10G,ping OLT也不丢包了,貌似问题解决了。
其实没有,还有另一个坑等着。
查看NCS日志,满屏的报错,每3秒:
gE0/0/0/1 is Active as part of Bundle-Ether5
#7518 : :RP/0/RP0/CPU0:Dec 12 12:01:22.258 2019:BM-DISTRIB[1266]: %L2-BM-6-ACTIVE : TenGigE0/0/0/0 is no longer Active as part of Bundle-Ether5 (Link is Expired; LACPDUs are not being received from the partner)
#7519 : :RP/0/RP0/CPU0:Dec 12 12:01:22.264 2019:BM-DISTRIB[1266]: %L2-BM-6-ACTIVE : TenGigE0/0/0/0 is Active as part of Bundle-Ether5
#7520 : :RP/0/RP0/CPU0:Dec 12 12:01:23.058 2019:BM-DISTRIB[1266]: %L2-BM-6-ACTIVE : TenGigE0/0/0/1 is no longer Active as part of Bundle-Ether5 (Link is Expired; LACPDUs are not being received from the partner)
#7521 : :RP/0/RP0/CPU0:Dec 12 12:01:23.071 2019:BM-DISTRIB[1266]: %L2-BM-6-ACTIVE : TenGigE0/0/0/1 is Active as part of Bundle-Ether5
发现LACP不停的翻滚,这有是个啥情况。
尝试把MA5603T lacp preempt enable,没啥效果,改成long-period和short-period,最后发现,在把OLT上short-period改成1秒
(config)#lacp short-period 1
神奇的事情发生了,lacp稳定不再翻滚了。具体机制还不是那么清楚,但基本上问题出在思科和华为lacp协商上面,并且当两条10G链路只有一条能用的时候,lacp端口自然就中断连接导致丢包,这时候没有具体路由,数据包就通过缺省路由走了。
而两条10G都active的时候,虽然链路在翻滚,但总有一条链路是有效的,表现就是虽然聚合链路翻滚,但不丢包。
好吧,记录一下。
网友评论