开门见山,先说结论:小型局域网的大部分网络故障,其实只关注网络接口层和网际层的情况就能解决。
一、网络接口层可能存在的问题
网络接口层可能存在以下3个问题:
- 首先是线路的问题
这里主要指网线、光纤有没有问题。比如,我曾经碰到过某个交换机端口亮一会、熄一会,网络通一会、断一会的情况。这很可能是因为双绞线中有一根有问题,其它三根正常所导致的,只需用测线仪测一下就能找到故障了。如果手头没有合适的工具,又怀疑是水晶头、双绞线、光纤、光纤模块的故障,最简单的方法就是替换,拿根备用的网线或光纤,试一下好坏就可以了。 - 其次是vlan的配置错误
如果你的网很简单,就一个VLAN,傻瓜式的交换机配置,那肯定不会存在该问题。这个问题发生在多个VLAN的情况下,我们需要考虑,终端的VLAN加上没有,链路的trunk透传没有。 - 最后考虑是网络泛洪问题
有些网络的MAC地址表更新慢,突然换一个网卡或者终端就可能导致网络不通,重启一下交换机就能解决了。
二、网络层可能存在的问题
- 网络配置错误
通过ipconfig /all命令检查IP地址是否已经配置,并配置正确,不能出现IP地址冲突或无地址的情况。 - 网关配置错误
跨网段访问时必须要配置网关,一般情况下,小型局域网使用第一个或最后一个可用IP作为网关。 - 掩码配置错误
错误的掩码可能会导致IP地址与网关不适配;以及IP地址不是主机地址,而是网段或广播地址等情况,所以配置时也要注意。 - 路由错误
通过route print命令查看路由条目情况,如果没有能够通向对方的路由,可以通过route ADD命令进行手动添加。
三、具体故障判断方法
接下来进一步说明,如何进行故障排查,
以某小型局域网为例,它的拓扑如下图,二层交换机下联多台PC,二层交换机上联三层交换机,同时办公系统服务器也接在三层交换机上。有一天,客户A发现,不能上办公系统了。怎么排错,按照我们一开始说的思路,就是检查网络互连层和网际层的情况。首先,我们看一下接入交换机上的网线接口灯亮不亮,然后再分别进行判断。
小型局域网示意拓扑图一是终端或交换机的网络接口灯不亮
此时不用考虑网络层的问题,我们首先林解决网络接口层的故障,那么可能有以下几种情况:
- 双绞线或光纤传输距离问题:一般双绞线传输距离<100米,多模光纤传输距离<500米。
- 线缆断裂或线缆连接器接触不良导致双绞线串扰过大或者光纤光衰过大的问题:一方面可能相关器件本身可能是假冒伪劣产品,建议尽量从正规网站或商家购买;另一方面可能由于光纤的光衰过大导致,如果光模块只支持1KM,但是两个光模块之间差距2KM,这种情况也不行。判断这两方面故障可以通过线缆测试仪进行测试。
- 网卡或交换机接口故障问题:
如果是端口硬件故障,一般需要更换网络模块。- 电口判断方法,把最近的两个接口用双绞线连接起来,形成一路,一个亮绿灯,一个亮橙灯,那么就是出问题了。
- 光口判断方法:用一根光纤打环,原理和双绞线一样。但是要注意,长距离光模块不宜近端打环,为什么,因为它是激光啊,可能就烧掉了。因此如果单模光模块近距离传输很可能造成非常大的影响,最好弄一个近距离的光衰设备,其实就是小功率光模块。
- 接入交换机的系统IOS存在缺陷问题:这个故障的推断比较难,不到最后不要怀疑是这个故障。即使是这个故障,在与400服务电话联系后,也只能进行尝试性操作,比如更新IOS。
- 链路协商故障:线路的协商问题是因为两端链路协商兼容性,有可能设备是千兆、百兆自适应的,但就是协商不起来,建议在设备上配制两端链路的双工和速率。
- 人为故障
- 线缆连接错误问题:说实话,70%的故障都是人为故障,我们说管理与技术并重,绝不能忽视管理问题。比如有次某个用户说,他上不了网了,最终检查发现网线没插,这种低级的故障其实是最多的。特别是二层环路,在实际网络中,经常有人乱插线,这个也要注意检查。
- 多发原因:有可能存在两端线缆接得不是同一根;单多模光纤混用(有些情况下可以,但是很不推荐);翻转线(console线)被用于数据传输等情况。
- 接口速率不匹配问题:例如交换机的百兆电口连接mini-gbic-gt(千兆模块)等。
- 接口介质类型错误(光电复用接口)问题:需要我们手动配置接口介质类型,目前最新的设备已经支持自动识别,但是稍微老一点的设备都需要敲一条命令,命令它使用电口还是光口。
二是终端或交换机接口灯能亮,但是传输速度慢的情况
此时需要针对网络接口层和网际层分别考虑,逐步找出故障点。
我们先考虑网络接口层故障
- 线缆连接器接触不良/双绞线串扰过大/光衰过大问题:有些情况下,咱们线的或者光的质量不好,网是通的,但是线路质量,非常不好,换个线或者连接器器立马就好。是不是这种情况,有以下两种判断方法:
- 登陆交换机设备,通过display interface命令查看Undersize、Oversize、collisions、Fragments、Jabbers、CRC alignment errors、AlignmentErrors、FCSErrors、dropped packet events后面的数值是否在不断增长。
- 通过专用线缆测试仪进行测试。
- 交换机设备故障
- 更换设备:有钱能使鬼推磨,这个方法不用多介绍。
- 尝试性修复操作:一般情况下,重启设备能够处理好30%的故障,再不行,还可以恢复出厂设置。提醒一下在做这些操作前,必须要提前备份配置。
- 设备IOS缺陷:不说了,和上面一样。
- 链路协商问题
- 最常见的故障是两端协商不一致:这个之前说过了,简单来说,就是强制两端链路的双工与速率一致。
- 流控策略问题:有些设备做了开启/关闭流控操作、限速配置、访问控制策略等操作,往往也会影响网络互通。建议打开设备查看一下配置,如果不懂,就把命令输入到百度里搜索一下,看看有没有做上述配置。
我们再考虑网际层故障
网际层比较常见的是一些小故障,比如一些网管或者病毒容易造成ARP攻击,特别是IP冲突,如果没有终端监管系统或者不遵守单位的DHCP或IP分配,造成冲突了就会很难查。
- 三层的路由环路故障:基本都是设计故障,比如两台静态路由造成的环路。
- IP地址冲突问题:主要遵循一个原则,“谁报故障让谁改地址”。
- 有人让我们改对方的IP,我觉得他这是不讲道理,一般能查出来,但是让对方改IP不合理啊,不管他自己用了一个月还是一年。
- 可以查看故障终端的MAC地址,登录到网关设备上查看ARP信息,这个只能在网关上看,查看IP和MAC地址,因为二层接入交换机是没有IP地址的。
- 网络中存在异常流量总是:比如ARP攻击。因为小型局域网一般没有什么安全设备,所以出现内鬼是最难防了。我们只能抓取网络报文进行分析,如果看不懂,可以到闲鱼上找一个工程师帮忙分析。
- 路由冲突与排除
- 路由缺失:dis ip routing table,命令进行查看,单程路由会导致一种似是而非的情况,有时候它在,但是不通,这是因为没有返回,这其实很常见啊。
- 大段小段冲突:例如访问10.117.230.4,能匹配10.117.230.0,也可以匹配10.117.0.0,不要认为大段匹配上,就是正确的方向。
- 分段检查:每个人负责好自己的事情,两个部门之间可能经过很多设备,那中间单位的故障就是中间单位负责处理,先看能不能ping通自己局域网的网关,再找到最近单位的情况,请对方协助排查,可以使用跟踪排除法。
网友评论