1、 某电业局网络故障诊断案例分析 某电业局网络故障诊断一、 故障描述故障地点:某电业局故障现象:网络严重阻塞,内部主机上网甚至内部主机间的通讯均时断时续。故障详细描述:网络突然出现通讯中断,某些VLAN不能访问互联网,且与其它VLAN的访问也会出现中断,在机房中进行ping包测试,发现中心交换机到该VLAN内主机的ping包响应时间较长,且出现间歇性丢包,VLAN与VLAN间的丢包情况则更加严重。二、 故障详细分析1. 前期分析初步判断引起问题的原因可能是:l 交换机ARP表更新问题l 广播或路由环路故障l 人为或病毒攻击需要进一步获取的信息:l 网络拓扑结构及正常工作时的情况l 交换机ARP表
2、信息及交换机负载情况l 网络中传输的原始数据包2. 具体分析首先,我们从网络管理员那儿,得知了网络中主机共450台左右,同时得到了网络的简单拓扑图,如图1所示。(图1网络原始拓扑简图)从图1可以知道,网络中划分了6个VLAN,分别是10.230.201.0/24、10.230.202.0/24、10.230.203.0/24、10.230.204.0/24、10.230.205.0/24、10.230.206.0/24、,其中201205这5个VLAN分别用于一个部门,而206为服务器专用网段。各VLAN同时连接上中心交换机(Passport 8010),中心交换机再连接到防火墙,由防火墙连接
3、到Internet以及省单位。大致了解了网络拓扑后,我们以超级终端方式登录中心交换机,发现交换机的负载较大,立即清除交换机ARP表并重启,但故障仍然存在,于是我们决定对网络进行抓包分析。在中心交换机(Passport 8010)上配置好端口镜像(具体配置信息,略),并将安装科来网络分析系统的笔记本接到中心交换机的镜像口上,安装好后网络的拓扑简图如图2所示。(图2安装科来网络分析系统后的网络拓扑简图)由于科来网络分析系统可以跨VLAN对数据进行捕获分析,所以在中心交换机上接入安装科来网络分析系统的笔记本后,网络的拓扑结构并未发生任何改变。打开笔记本上的科来网络分析系统,捕获数据包约1分钟(捕获停
4、止后发现确切时间是53秒)后停止捕获,并对捕获到的数据通讯进行分析。将节点浏览器定位到物理端点下的本地网段,我们发现MAC地址为00:00:E8:40:44:99的主机,下面共有40个IP地址,如图3。(图3定位本地网段的端点视图)我们知道,在正常情况下,一个MAC地址下面出现多个IP地址,只可能有以下几种情况之一:网关、代理服务器、手动绑定多个IP地址。咨询网络管理员得知,该网段内的机器均只绑定了一个MAC地址,且没有代理服务器,同时该MAC也不是网关MAC地址,由此,我们怀疑,该主机可能存在欺骗攻击。右键单击图3中的00:00:E8:40:44:99节点,在弹出的菜单中选择“定位浏览器节点
5、(L)”命令,将节点浏览器中定位到00:00:E8:40:44:99。查看协议视图,发现该节点主动发起了22613个ARP回复数据包,而ARP请求数据包只有2个,如图4所示。(图400:00:E8:40:44:99主机通讯的协议分布)从图4下面的数据包可以知道,00:00:E8:40:44:99主动向网络中的其它主机发出ARP回复数据包,内容是告诉对方主机,自己是某个IP的主机,而这个IP在不断地变化。由此可以断定,MAC地址为00:00:E8:40:44:99的机器在进行ARP欺骗。同时,诊断视图的ARP诊断事件区时,也给出了相应的提示信息,如图5。(图500:00:E8:40:44:99的
6、ARP诊断信息)经过上面的分析,我们确定00:00:E8:40:44:99存在ARP欺骗攻击,网管人员立刻开始查找该主机,由于他们以前做了IP与MAC地址的统计表,所以很轻松地就找到了该机器。在二层交换机上拨掉该主机的网线,网络很快恢复正常,VLAN间的内部访问和外部访问(包括Internet和省网单位)速度均恢复正常。另外,从图3的显示可知,00:02:B0:BC:68:D2、00:0B:DB:4B:46:81、00:11:25:8D:7D:C1 三台机器占用的流量较大,通过查看这几台机器的具体流量后,发现00:02:B0:BC:68:D2和00:0B:DB:4B:46:81在互相进行数据拷
7、贝,而00:11:25:8D:7D:C1对应的IP地址是10.230.204.1,它是10.230.204.0/24网段的网关,占用较量较大属于正常情况。由此基本断定网络时断时续的根源即前面找出的00:00:E8:40:44:99主机。找出故障点,并帮助网络恢复正常后,我们因为其它的事情离开了现场,并未去排查00:00:E8:40:44:99的具体情况。下午接到电业局网管人员的电话,告知在找到MAC地址为00:00:E8:40:44:99的主机时,该用户仅在使用WORD进行文档编辑,并未人为的进行攻击,然后安装防病毒软件并对该主机进行查杀,查出病毒若干,病毒查杀后,再次将该主机接入网络,网络通
8、讯仍然正常。由此得出引发网络故障的原因是MAC地址为00:00:E8:40:44:99的主机感染蠕虫病毒,该病毒自动进行ARP欺骗攻击,导致网络访问的时断时续。三、 总结中大型网络中,网络故障错综复杂,不借助专业网络分析工具的情况下,很难对故障进行排查,如本例中,如果不对数据包进行捕获,即使在交换机上查看流量,由于00:00:E8:40:44:99的流量并不特别大,所以我们也很难找到故障点。同时,由于此次捕获数据包的时间较短,仅仅只有53秒,所以网络中可能还存在一些未被检测出问题的主机(这些主机当前未启动,不会收发相应数据包,故无法查找)。所以,对于企业的网络运行,需要网络管理人员使用专用的网络分析工具,对网络进行长期有效的监测和分析,才可以最大程度地排除可能的网络故障和网络安全威胁。成都科来软件有限公司2006年6月成都科来软件有限公司 电话:028-85120922Email:sales传真:028-85120911support6 / 6