nullnull第7章 中低端LAN Switch故障排除ISSUE 2.1日期:杭州华三通信技术有限公司 版权所有,未经授权不得使用与传播null通过本章的学习我们可以:
了解Lanswitch常见故障类型
掌握故障定位及排除
方法
快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载
引入null物理层故障
端口协商以及自环问题
VLAN问题
管理问题
设备兼容问题
其他问题课程目标学习完本课程,您应该能够:物理层故障排除综述(1) 物理层故障排除综述(1) 从广义的角度来看,以太网的物理层故障包括以太网交换机本身的硬件故障和连接交换机的物理线路故障
在硬件正常的前提下,借助设备接口指示灯的状态进行初判 :
LINK灯灭
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
示线路没有连通,灯亮表示线路已经连通
ACTIVE灯灭表示没有数据收发,灯闪烁表示有数据收发
采用替换法进行判断
包括线路、电缆和光纤、板卡、槽位、整机,调换线路收发
在交换机上配置接口环回进行判断
设置以太网端口进行环回测试:loopback { external | internal }
设备接口之间的工作速率、工作方式(半双工/全双工)、帧格式协商和匹配问题也会导致物理层故障现象物理层故障排除综述(2) 物理层故障排除综述(2) 设备本身的硬件故障一般包括:
接口或者设备硬件损坏;
Bootrom或者comware版本不正确或者不配套导致设备工作异常;
光模块接口类型不正确;
用户PC网卡故障或者配置不正确。
线路故障一般包括:
网线或者光纤线路本身物理损坏;
网线类型错误(支持MDI/MDIX自适应除外)或者光纤收发连接不正确;
中间传输设备(光电转换器,线路转换器等)故障或者工作不正常;
接口线缆所支持的最大传输长度、最大速率等超出使用范围。 常用物理层相关命令 常用物理层相关命令 端口信息显示命令: display interface
[H3C] display interface ethernet0/1
Ethernet0/1 current state : UP
IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 00e0-fc00-0010
Description : aaa
The Maximum Transmit Unit is 1500
Media type is twisted pair, loopback not set
Port hardware type is 100_BASE_TX
100Mbps-speed mode, full-duplex mode
Link speed type is autonegotiation, link duplex type is autonegotiation
Flow-control is not enabled
The Maximum Frame Length is 1536
Broadcast MAX-ratio: 100%常用物理层相关命令常用物理层相关命令端口信息显示命令: display interface
PVID: 1
Mdi type: auto
Port link-type: access
Tagged VLAN ID : none
Untagged VLAN ID : 1
Last 5 minutes input rate 229 bytes/sec, 2 packets/sec
Last 5 minutes output rate 25 bytes/sec, 0 packets/sec
Input(total): 554 packets, 41008 bytes
13 broadcasts, 68 multicasts
Input(normal): - packets, - bytes
- broadcasts, - multicasts
Input: 3 input errors, 0 runts, 0 giants, - throttles, 0 CRC
0 frame, - overruns, 1 aborts, 2 ignored, - parity errors
Output(total): 1119965 packets, 1578436288 bytes
407 broadcasts, 1118775 multicasts, 0 pauses
Output(normal): - packets, - bytes
- broadcasts, - multicasts, - pauses
Output: 8 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 7 collisions, 0 late collisions
1 lost carrier, - no carrier S3026E光模块类型错误导致互通问题 S3026E光模块类型错误导致互通问题 现象描述
组网描述:S3026E交换机与A交换机级连。在S3026E上和A都开启GVRP,S3026E光口G1/1配置千兆多模模块连结A光口G1/1,两个端口都为trunk,PVID都为1,都使用VLAN2上配置的IP地址作管理地址。
故障现象:在S3026E上无法ping通对端管理VLAN虚接口的地址,用户不能上网。 S3026E光模块类型错误导致互通问题 S3026E光模块类型错误导致互通问题 信息收集
使用display interface G1/1查看S3026E千兆光口UP,而且能看到对端交换机A透传过来的VLAN,display VLAN也能看到对端传过来的VLAN;
关闭两端设备的GVRP
协议
离婚协议模板下载合伙人协议 下载渠道分销协议免费下载敬业协议下载授课协议下载
,并在两端设备手工配置允许所有VLAN通过,在本端ping对端管理地址,依旧不通;
将S3026E光接口shutdown,使用S3026E的电口E0/2和A设备电口E0/2通过网线连接,并正确配置数据,此时能够ping通对端管理地址,开启GVRP也没有问题。 S3026E光模块类型错误导致互通问题S3026E光模块类型错误导致互通问题原因分析
数据配置错误;
端口工作模式不正确;
模块硬件损坏或者类型不正确;
虚接口不工作。
处理过程
根据前面更换电口验证的情况,数据配置没有问题;
将光口强制1000M全双工工作,仍然不能解决问题;
怀疑光模块硬件损坏,换同样类型光模块仍然如此。 S3026E光模块类型错误导致互通问题S3026E光模块类型错误导致互通问题处理过程(续)
仔细查看端口显示信息,显示基本正常,查看端口数据统计部分的信息,发现只有入包,没有出包,说明该端口没有进行数据转发;但端口其它信息都能正常显示,说明硬件没有损坏;
Ping各自交换机上管理IP地址,没有问题,说明三层接口工作正常;
最后怀疑可能模块用错,经确认S3026E的1000M多模模块外观与S3026多模模块外观相同,硬件模块也兼容,以前曾有错用模块导致故障的情况发生。在确认丝印时需要拔下模块,查看PCB的丝印,应该是REV.A,而交该换机上用的是REV.0,至此发现原来是硬件模块类型不对导致此次故障;
更换正确的多模模块后故障排除。 S3026E光模块类型错误导致互通问题S3026E光模块类型错误导致互通问题总结
目前中低端Lanswitch产品比较多,有些模块可以通用,有些模块不能够通用。因此在进行设备选购的时候不但要注意软件版本的配套,也应重点注意模块硬件的配套问题。
思考题
在排除本故障时,还有哪些简捷的方法?
通过替换交换机A或者S3026E的方法快速定位故障。 由于协议转换器不能透传1518字节以上报文导致无法访问网页 由于协议转换器不能透传1518字节以上报文导致无法访问网页 现象描述
如图所示,用户通过ADSL接入MA5100,在MA5100上划分7个VLAN,MA5100通过10M/2M协议转换器上连S3526进行流量汇聚,S3526将MA5100上传的VLAN用户信息透传给S8016。在S8016上配置多个VLAN的三层虚接口地址作为用户网关,并做NAT转换后上外网。
故障现象:MA5100下面的用户能够Ping通外网的地址和域名(比如sina.com),但是打开部分网站网页时提示“Internet Explorer 无法连接到您请求的页,可能该页目前不可用。” 由于协议转换器设备不透传超过1518字节报文导致能Ping通外网但是无法打开网页由于协议转换器设备不透传超过1518字节报文导致能Ping通外网但是无法打开网页信息收集:采用分段故障排除法
将计算机直接接在S3526下面,用户上网正常。说明S3526到外网这一段没有问题。
查看S3526连接MA5100的Trunk接口的配置,接口的PVID设置为1,允许所有的VLAN通过,并且在接口下MA5100的7个VLAN的信息已经通过(VLAN Passing字段)。
在S3526上配置VLAN 1的虚接口地址,MA5100使用缺省VLAN 1的用户可以正常上网。 由于协议转换器设备不透传超过1518字节报文导致能Ping通外网但是无法打开网页 由于协议转换器设备不透传超过1518字节报文导致能Ping通外网但是无法打开网页 原因分析
MA5100下VLAN 1的用户可以正常上网,但其他的7个VLAN却不能正常上网,重点需要分析VLAN 1用户的数据和其他VLAN用户的数据在传输过程中有哪些不同;
根据MA5100和S3526的Trunk端口的设置,PVID都设置为1,MA5100在收到VLAN 1的用户数据的时候,将VLAN ID去掉上传S3526,也就是说数据在Trunk上传输是不带VLAN ID的。MA5100上其他VLAN用户的数据在TRUNK链路上传输是携带VLAN信息的。
这有两种可能:1、某台交换机不允许其他VLAN通过,也就是VLAN互通有可能有问题。但根据用户可以ping通外网,排除了这种可能性;2、小包可以通过,大包不能通过。正常IP包的最大长度是1518,含VLAN ID的是1522。由于涉及到10M/2M协议转换器设备,可能是该设备不支持带VLAN ID的大包。 由于协议转换器设备不透传超过1518字节报文导致能Ping通外网但是无法打开网页由于协议转换器设备不透传超过1518字节报文导致能Ping通外网但是无法打开网页处理过程
为了确认是否是协议转换器导致的问题,做如下测试:
第一步:从MA5100下面的PC Ping 1468大小的包能够PING通 ;Ping 1469的包,无法通过。
第二步:将S3526的接口改为Access模式,直接把计算机接在10M/2M设备连接MA5100的出口上,能够上网,也能Ping通1469的报文。
第三步:连接另外一台PC在协议转换器连接S3526的出口,两台PC互Ping 3000的包,能通。
处理方法:1、将两端的设备更换为通过透传带VLAN ID的协议转换器;2、将10M/2M设备更换为光电转换器。 由于协议转换器设备不透传超过1518字节报文导致能Ping通外网但是无法打开网页由于协议转换器设备不透传超过1518字节报文导致能Ping通外网但是无法打开网页测试结果分析
含VLAN ID报文长度:1522字节=1500(MTU)+18(二层头)+4 (VLAN TAG) 。
由于协议转换器只能接收1518字节长度的报文,当报文长度超过1518的时候,设备就丢弃报文。
在我们Ping 1468的时候,1468是IP层的净负荷,加上20个字节的IP报文头和8个字节的ICMP报文头,整个IP层的报文长度为1496个字节,再加上18个字节的以太网帧封装和4个字节的VLAN信息,整个以太网帧的长度刚好为1518的字节,这个时候10M/2M的设备能够接收,所以能够Ping通。
在Ping 1469的时候,根据上面的计算整个以太网帧的长度为1519个字节,10M/2M设备无法接收,导致无法Ping通。 null物理层故障
端口协商以及自环问题
VLAN问题
管理问题
设备兼容问题
其他问题目录端口协商以及自环问题排除综述 端口协商以及自环问题排除综述 中低端交换机上常见的接口大致分类
按工作速率有:10M,10/100M,100M,10M/100M/1000M,1000M;
按工作方式有:全双工,半双工;
按接口类型有:电接口,光接口(多模,单模10Km,单模中距40Km,单模长距70Km),堆叠模块。
两端设备端口工作方式等参数的匹配问题
大多数端口都支持工作参数自动协商功能;
有时候由于设备之间协商能力不强或两端设备默认的参数配置不相同导致端口协商不通过,端口工作异常,此时就需要对端口的参数进行手工调整和设置,保证双方参数一致。常用的端口配置命令(1)常用的端口配置命令(1)设置以太网端口速率
设置百兆以太网端口的速率:speed { 10 | 100 | auto }
设置千兆以太网端口的速率:speed { 10 | 100 | 1000 | auto }
百兆以太网电端口支持10Mbit/s、100Mbit/s或自协商工作速率,可以根据需要对其设置。
百兆以太网光端口支持100Mbit/s速率,可以设置为100(100Mbit/s)和auto(自协商)。
千兆以太网光口可以设置为1000(1000Mbit/s)和auto(自协商)。
1000Base-T以太网端口支持10Mbit/s、100Mbit/s、1000Mbit/s三种速率,可以根据需要选择合适的端口速率。但当双工状态设置为半双工模式后,就不能设置为1000Mbit/s速率。
常用的端口配置命令(2)常用的端口配置命令(2)设置以太网端口网线类型
mdi { across | auto | normal }
该设置只对10/100Base-T、1000Base-T端口有效。
设置以太网端口的链路类型
设置端口为Access端口:port link-type access
设置端口为Hybrid端口:port link-type hybrid
设置端口为Trunk端口:port link-type trunk
其他接口显示命令
显示端口的所有信息:display interface
显示Hybrid端口或Trunk端口:display port { hybrid | trunk }
清除以太网端口的统计信息:reset counters interface环路问题导致用户上网异常环路问题导致用户上网异常现象描述
组网如图所示,用户反映上网速度慢,有时打开网页时没有响应。
从外网Ping网络中的某台S3026管理IP地址,发现有如下奇怪Ping包:
Ping 11.11.10.117 : 56 data bytes.
Reply from 11.11.10.117 : bytes=56: icmp_seq=0 ttl=64 time=16 ms
Reply from 11.11.10.117 : bytes=56: icmp_seq=0 DUP! ttl=64 time=33 ms
Reply from 11.11.10.117 : bytes=56: icmp_seq=0 DUP! ttl=64 time=33 ms
Reply from 11.11.10.117 : bytes=56: icmp_seq=0 DUP! ttl=64 time=50 ms
Reply from 11.11.10.117 : bytes=56: icmp_seq=0 DUP! ttl=64 time=50 ms
Reply from 11.11.10.117 : bytes=56: icmp_seq=4 ttl=64 time=0 ms
5 packets transmitted, 5 packets received, +4 duplicates, 0% packet loss
正常情况应该是回五个reply报文 ,现在却多出四个DUP重复数据包! 环路问题导致用户上网异常的问题处理环路问题导致用户上网异常的问题处理信息收集
可以接收到Ping响应报文,说明网络是通的,但由于多接收到重复数据包,可能是由于网络环路造成。
用display loopback-detection察看端口环回检测信息如下:
[H3C] display loopback-detection
Loopback-detection is running
Detection interval time is 30 seconds
Following Port(s) has(have) loopback link:
Ethernet0/1
说明E0/1接口连接的网络有环路存在。 环路问题导致用户上网异常的问题处理环路问题导致用户上网异常的问题处理处理过程
检查交换机连线确认为树型结构。
因为S3026具备端口loopback-detection功能,当检测到端口所连接的网络有环路时将该端口处于受控状态,如环路解除,还能自动打开端口。可以使用该功能用来检测环路。
将友商DSLAM下面的用户线依次断开,同时用display loopback-detection显示是否有环路。
查到某个线路问题后,到用户家检查Modem配置发现配置了两条相同的PVC,导致形成环路。在该网络中最后查出有四个同样故障的Modem。修改配置后Ping包恢复正常。 端口协商问题导致S3026光模块无法正常工作端口协商问题导致S3026光模块无法正常工作现象描述
组网:MA5203通过百兆光纤连接S3026百兆多模光模块,S3026下面接入上网用户。
故障现象:光纤正常连接后发现S3026光模块Link指示灯不亮,用display interface命令查询E1/1接口发现其状态为 down 。 端口协商问题导致S3026光模块无法正常工作端口协商问题导致S3026光模块无法正常工作原因分析
物理线路问题:调换光纤、改变光纤收发操作,发现指示灯还是不亮。用一个带光模块的S2403F进行替换,连接到光纤发现S2403F工作正常,在S2403F下面可以正常上网,说明物理线路没有问题。
设备或者光模块问题:因光路没问题故怀疑S3026的光模块或者SLOT 1插槽有故障,通过替换另一台正常的S3026连接光纤,发现光模块LINK指示灯还是不亮,排除了设备和光模块问题。
设备间接口参数协商问题或者接口工作参数不匹配:使用display interface命令详细查看接口参数,并进行对比。端口协商问题导致S3026光模块无法正常工作端口协商问题导致S3026光模块无法正常工作处理过程
通过查询发现MA5203端口速率为100M,并工作在自协商模式。
通过查询发现S3026光模块端口参数如下Auto-duplex, Auto-speed, 100_BASE_FX_MMF ,说明接口速率协商正常,但双工/半双工协商不通过。
对S3026光接口的参数进行调整,将S3026的光接口设置为全双工后,光模块的LINK灯即亮,并且S3026工作正常。
总结
设备与设备之间不能正常通讯,常见的有物理线路故障、端口工作参数不匹配、设备模块硬件故障等几种原因。尤其是两端设备端口均为自协商时,由于不同厂家的设备接口参数不同,或者同一厂家不同设备由于采用的硬件芯片不同而自协商不通过,导致不能正常通讯。通常采用替换法可以快速定位故障。 物理链路存在环路造成业务异常 物理链路存在环路造成业务异常 现象描述
S3526E通过NE16E连接Internet,下连S3026和S2016,S3526E和S3026之间通过两条百兆链路相连,S3526E和S2016之间只有一条百兆链路相连。
故障现象:S3526E与 S3026之间的两条链路都不连接或者只接其中一条链路时,S2016下的PC可以正常ping通网关和上层接口地址。
如果S3526E与 S3026之间的两条链路都连接好,则S2016下的PC机ping不通网关。
重新启动S2016与S3526E之间的接口时,S2016下PC可ping通网关20左右个包后中断;多次操作现象相同。
不论S3526E与 S3026之间的两条链路怎样连接,网管都与远端的服务器连接正常;S3526E与NE16E之间的接口也工作正常。由于物理链路存在环路造成业务异常的问题由于物理链路存在环路造成业务异常的问题原因分析
由于S3526E与 S3026之间的两条链路形成环路,与S3026相连的两个端口之间存在大量的无用报文,被同时转发到端口属性为Trunk的端口,引起广播风暴,使这些端口堵塞,造成端口承载业务异常;
连接网管和与NE16E对接的端口属性为Access,可以正常工作。
处理过程
方案
气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载
一:把S3526E上与S3026相连的两个端口分别划分在不同的VLAN内,但不能满足设备之间的两条链路成主备份关系的要求。
方案二:在S3526E上启动STP协议,问题得到解决。
方案三:在S3526E和S3026之间配置链路聚合(link-aggregation),这样既可以增加带宽,实现负载分担,又可以实现链路备份的功能。 null物理层故障
端口协商以及自环问题
VLAN问题
管理问题
设备兼容问题
其他问题目录VLAN故障排除综述(1)VLAN故障排除综述(1)VLAN的引入
用于隔离网络风暴,增加网络安全性
早期用路由器进行隔离,但成本高,效率低,应用复杂
增加了4个字节的特殊标注域,用于区别不同用户发送的数据帧,其中VLAN ID占用12个bit
VLAN与端口的关系
Access端口:这种端口只能属于一个VLAN,并且从该端口进来的数据包都不包含TAG标记,数据包进入之后,会被加上该端口的VLAN ID(加上TAG标记)。如果有数据需要从这种接口发送出去,数据帧中的TAG标记将被删除。这种端口一般用于连接用户主机或路由器。VLAN故障排除综述(2)VLAN故障排除综述(2)VLAN与端口的关系(续)
Trunk端口:这种端口可以属于多个VLAN,或者说这种端口可以传送多个VLAN的数据帧。从这种端口发送出去的数据帧都包含有TAG标记(缺省VLAN ID的数据帧除外);从这种端口接收到的报文,如果已经有TAG标记,则直接转发;如果没有TAG标记,则加上带有缺省VLAN ID的TAG标记。这种端口一般用于连接交换机或路由器。
Hybrid端口:这种端口可以属于多个VLAN。但是与Trunk端口不同的是它所传送的数据帧,可以包含TAG标记也可以不包含TAG标记;而Trunk端口则必须包含TAG标记(缺省VLAN ID的数据帧除外)。其发送数据帧时根据配置信息进行判断是否加上TAG标记;接收数据帧时和Trunk端口相同。这种端口一般用于连接交换机或路由器。 VLAN故障排除综述(3)VLAN故障排除综述(3)Isolate-user-vlan技术简介
Isolate-user-vlan技术解决VLAN ID不足的问题。
采用VLAN ID屏蔽的办法,将接入层的用户VLAN ID对汇聚层设备屏蔽起来,在接入层使用VLAN的方法进行用户二层隔离。
接入层设备Isolate-user-vlan访问汇聚层设备,对于会聚层设备来说,它只知道Isolate-user-vlan ID,数据包返回时,送往Isolate-user-vlan ID所包含的所有Secondary VLAN用户。
VLAN路由技术简介
VLAN路由技术模拟路由器的三层接口,在以太网上创建出虚拟局域网三层接口。
这些接口具有三层报文转发的功能。将二层不能转发的数据帧进行数据帧头的剥离,然后根据IP报文头信息进行转发。 VLAN故障排除综述(4)VLAN故障排除综述(4)VLAN故障的分类
VLAN用户隔离不成功;
VLAN隔离后不能进行任何通信;
采用VLAN技术后,无法进行设备管理。
VLAN故障的解决方法
分析数据帧的转发过程,特别是数据包携带的VLAN ID的变化。看看在整个数据帧转发的过程中何时删除TAG标签,何时增加TAG标签,在删除和增加的过程中是否变化过VLAN ID,特别是Isolate-user-vlan技术存在的时候。
其次分析是否VLAN路由存在问题。VLAN配置问题导致用户无法上网VLAN配置问题导致用户无法上网现象描述
S3026下行通过百兆光口接S2016,上行通过100M以太网口至友商交换机C。S2016与S3026设置固定的管理IP地址,由设备C对S2016和S3026进行管理,由设备C连接的DHCP服务器为用户分配IP地址。S2016下挂的用户通过Isolate-user-vlan配置实现二层隔离。 故障现象:所有S2016下挂的用户都无法获得动态IP地址,ping不通DHCP SERVER和网关C,S3026下挂的用户却可以获得IP地址。同时,从S2016的终端窗口却可以ping通DHCP SERVER和网关。另外还发现,如果把S2016下挂的用户设置为VLAN 1000用户,则可以通过DHCP SERVER获得IP地址,也可以ping通网关。 Hybrid友商交换机CE 0/1 100ME1/1E1/1VLAN 1000管理VLAN1000DHCP SERVERS3026VLAN配置问题导致用户无法上网VLAN配置问题导致用户无法上网信息收集
S2016下管理VLAN 1000的用户可以正常上网,而业务VLAN的用户不能上网,说明网络连接正常,问题在设备的配置对不同VLAN的处理上。
查看S2016的配置,发现配置了Isolate-user-vlan ,其中Isolate-user-vlan为30,Secondary VLAN为2~19,另外配置了管理VLAN 1000。
原因分析
上行数据分析:VLAN 1000用户
下行数据分析:VLAN 1000用户
上行数据分析:Secondary VLAN用户
下行数据分析: Secondary VLAN用户
结论: Secondary VLAN用户数据配置问题。Hybrid友商交换机CE 0/1 100ME1/1E1/1VLAN 1000管理VLAN1000DHCP服务器S3026VLAN配置问题导致用户无法上网VLAN配置问题导致用户无法上网处理过程
避免VLAN ID 1000在S3026和S2016之间的一再透传,同时还要兼顾上面设备能管理到S2016,需要修改配置方案。
S3026下行接S2016的端口不再配置TAG VLAN 1000。
S2016上把Isolate-user-vlan直接设置为1000,包含所有用户端口的Secondary VLAN,同时做为管理VLAN。
经过这样的调整,下行方向的包从S3026出来的时侯,去掉了带有S3026上的Isolate-user-vlan的头,进入S2016的时侯再加上S2016 Isolate-user-vlan的头,而S2016的Isolate-user-vlan既包含用户端口又同时做管理VLAN,通过MAC地址来区别具体用户,达到了兼顾用户上网和管理的要求。 友商交换机三层接口问题导致与S6506互通网络中断 友商交换机三层接口问题导致与S6506互通网络中断 现象描述
S6506下挂MA5100接入ADSL用户,S6506上行和友商交换机设备C千兆光口连接,网络正在运行突然中断,用户能ping通S6506网关,S6506到交换机C不能ping通,ADSL用户不能正常上网。
信息收集
使用命令(display interface)查看S6506和交换机C的千兆接口状态,双方物理接口和链路层都正常UP。
使用命令(display arp和display mac-address)查看MAC地址表和ARP表,双方都能学到对方的MAC地址,并建立正确的ARP表项。
查看S6506路由表,发现接口路由和直连路由正常,也有C交换机的路由信息。查看C的路由表,发现路由信息也正常。 友商CS6506用户网关MA5100ADSL用户千兆光口友商交换机三层接口问题导致与S6506互通网络中断 友商交换机三层接口问题导致与S6506互通网络中断 原因分析
双方之间互通已经一个多月,可以排除兼容性问题。
物理接口UP,可以初步排除物理层问题。
接口协议层UP,同时双方都能学到对端MAC地址,双方接口统计信息上都显示有报文收发,也可以排除二层互通问题。
双方是通过三层接口互通,可以判断是三层上出了问题,至于哪一方设备有问题,需要进一步定位。友商CS6506用户网关MA5100ADSL用户千兆光口友商交换机三层接口问题导致与S6506互通网络中断 友商交换机三层接口问题导致与S6506互通网络中断 处理过程
在C上抓包分析,发现从S6506发的ICMP报文到C后,C没有回应。从C发的ICMP报文到S6506之后,S6506给出回应报文,C收到但没有处理。
在C上直接连PC机,该接口属于和S6506互通的VLAN,发现PC机ping自己的网关竟然不通,可以肯定C上这个VLAN接口已经不工作了,有吊死的嫌疑。
更改C上相应的VLAN接口,问题解决,问题都是由于这个三层接口吊死导致。
总结
多利用抓包工具,对于故障的分析和定位很有帮助。 友商CS6506用户网关MA5100ADSL用户千兆光口VLAN 配置不完全导致业务不通VLAN 配置不完全导致业务不通S3026A配置了VLAN 2,3,4,100,G2/1和G1/1均为T Trunk 模式,并均配置了port trunk permit vlan all。
S3026B配置了VLAN 5,6,7,100,GE1/1为Trunk 模式,并配置了port trunk permit vlan all。VLAN 100为管理VLAN。
故障现象:S3026A下的PC机均可以与S8016下的PC互通,而S3026B的VLAN 5,6,7下的PC不能与S8016互通,但VLAN 100下的PC可以与S8016互通。 现象描述
中心交换机S8016的G1/1/1接口通过光纤下连S3026A的G2/1接口,S3026A通过千兆电口G1/1级联一台S3026B交换机的GE1/1口。
S8016配置了VLAN 2,3,4,5,6,7,100,并配置了相应的三层接口,G1/1/1为Trunk 模式,并配置了port trunk permit vlan all。 VLAN 配置不完全导致业务不通VLAN 配置不完全导致业务不通信息收集
VLAN100下的PC机能够正常通信,说明线路无故障。
S3026B的VLAN100下的PC能与S3026A的VLAN100下的PC正常通信,说明VLAN 100的Trunk能够正常传递,但VLAN 5,6,7的PC为什么不能正常,问题基本定位在数据配置上。
查看S3026B的G1/1的端口状态,发现允许通过的VLAN为5,6,7,100。
查看S3026A的G1/1和G2/1的端口状态,发现允许通过的VLAN为2,3,4,100,没有VLAN 5,6,7。
两台交换机都没有启用GVRP动态VLAN注册协议。 VLAN 配置不完全导致业务不通VLAN 配置不完全导致业务不通原因分析
原因在于VLAN在Trunk接口的注册上,虽然我们配置了port trunk permit vlan all,但其实是允许本交换机中配置的VLAN通过,而不是允许所有的VLAN通过,这可以通过查看端口的状态发现。这样在级联交换机时,上层交换机不能传递下面交换机的VLAN信息,从而导致下面的交换机用户业务不正常。
处理过程
在S3026A手工增加没有的VLAN 5,6,7,网络正常。
另外一种方法是启用动态VLAN配置,在两台交换机上启动GVRP,便可以避免产生类似故障。 VLAN配置问题导致S3526下用户上网速度慢 VLAN配置问题导致S3526下用户上网速度慢 组网描述
组网:友商交换机A下挂二层交换机B,交换机B通过FE下挂S3526,S3526下面接入用户。
故障现象:S3526下用户上网速度慢,有时出现网页打不开的现象。而S3526上行口的Active指示灯频繁闪烁,查看其他接口,发现指示灯也频繁闪烁。VLAN配置问题导致S3526下用户上网速度慢 VLAN配置问题导致S3526下用户上网速度慢 信息收集
S3526交换机上各个端口指示灯频繁闪烁,很有可能是交换机内部形成了广播风暴,通过命令显示接口状态,发现接口统计数据显示收到大量的广播报文,用抓包程序在S3526上捕获报文发现广播包很多,大约10秒内抓包30000多个。
检查配置,发现S3526上行端口配置允许所有VLAN通过,断开和交换机B的连接后,广播风暴消失。
检查交换机B的配置,发现B作为纯二层交换机使用,Trunk接口上也配置了允许所有VLAN通过。
检查网络拓扑情况,发现是树型结构,不存在环路问题。VLAN配置问题导致S3526下用户上网速度慢VLAN配置问题导致S3526下用户上网速度慢原因分析
很显然大量的广播包来自交换机B,是属于Trunk接口配置不当引起。由于Trunk接口允许所有VLAN通过,导致很多其他VLAN的报文通过交换机B到达S3526上行口,而S3526本身并没有这些VLAN的用户。
处理过程
在各个交换机上使能GVRP协议,使无关VLAN的信息不能到达S3526。
由于使用不同厂家的设备,如果不支持同一种协议,可以修改交换机B的配置,取消交换机B上行口TRUNK功能。 在启用GVRP的低端交换机上如何创建所需的VLAN 在启用GVRP的低端交换机上如何创建所需的VLAN 现象描述
低端交换机如S20XX、S30XX系列,在启用GVRP的时候,将接收GVRP协议发送的所有VLAN信息,并在本交换机上创建相应的VLAN。当发送的VLAN数量超过32,将只能够在本地创建序号低的前面32个VLAN。如果交换机上需要其他VLAN ID更高的VLAN,将无法实现。
原因分析
这是由于低端交换机如S20XX、S30XX系列,最多只支持32个VLAN。其启用GVRP时,只能够接收低的前32个VLAN ID。如果客户端交换机上需要其他VLAN ID更高的VLAN,而不需要VLAN ID较低的那些VLAN,即使总的VLAN数量不超过32,也不能够实现。 在启用GVRP的低端交换机上如何创建所需的VLAN在启用GVRP的低端交换机上如何创建所需的VLAN处理过程
只需要在交换机上,首先创建所需的、VLAN ID较高的那些VLAN,然后再启用GVRP即可。
建议与总结
这个问题是由于低端交换机所支持的VLAN数量规格所限,而GVRP在动态通告VLAN信息时,是不管对端交换机所支持的VLAN 规格的,当遇到如上问题时,可以使用这个规避措施。网络用户私自安装配置DHCP服务器导致其它用户上网不正常 网络用户私自安装配置DHCP服务器导致其它用户上网不正常 S3026DHCP服务器友商交换机FL区S2403FS2403FS2403FC区G区用户私有DHCP服务器VLAN982Tagged VLAN 982UntaggedS2403F下用户二层隔离C区用户上网正常L区和G区用户上网不正常S3026网络用户私自安装配置DHCP服务器导致其它用户上网不正常 网络用户私自安装配置DHCP服务器导致其它用户上网不正常 现象描述
在某住宅小区宽带网中,每单元分配一个VLAN号,组网为中心机房的友商交换机F连接DHCP服务器,并且下接各单元中的S3026,S3026下再接S2403F交换机。同时S3026和S2403F上都接有用户。
客户要求S3026往上送的业务报文必须为Tagged报文,且只能包含一个VLAN号,为了符合这个要求在S3026上没有再划分VLAN,而是所有端口都属于一个VLAN。同时2403F各个端口划分在不同的VLAN里,且2403F的上行口是Untagged的。
如图所示,在某单元中G区交换机为S3026,L和C区均有一台S2403F接于G区的S3026上。这三台交换机同属于VLAN 982。
故障现象:C区下的用户上网正常,但L和G区下面的用户在动态获取IP时,获取的IP地址正确,但获取的IP地址掩码、网关、DNS均错误,用户不能正常上网。 网络用户私自安装配置DHCP服务器导致其它用户上网不正常 网络用户私自安装配置DHCP服务器导致其它用户上网不正常 原因分析
用户动态获取IP地址工作过程:首先发一个DHCP广播报文。当同一VLAN内有DHCP服务器时,用户计算机首先获取的是本VLAN内DHCP服务器回应的DHCP报文,从而获得IP地址(当然这里还需要这个DHCP服务器与用户计算机之间没有三层隔离,因为隔离了DHCP服务器就不能收到用户计算机发出的DHCP广播报文,也就不可能为用户分配IP地址)。当本VLAN内没有DHCP服务器或存在DHCP服务器但服务器与用户之间三层隔离时,则通过三层设备上所配置的DHCP Relay指定的DHCP服务器获得IP地址。
C区下的用户可以正确获得IP地址,说明DHCP Server工作正常。网络用户私自安装配置DHCP服务器导致其它用户上网不正常 网络用户私自安装配置DHCP服务器导致其它用户上网不正常 原因分析(续)
G区和L区的用户获得的地址异常,说明用户发出的DHCP广播报文没有到达F交换机下的DHCP服务器,也就是DHCP Relay没有起作用;或者说虽然到达了DHCP服务器,但用户PC优先选用本VLAN的DHCP Server分配的IP地址。这说明本VLAN内有非法的DHCP服务器。
由于在单个S2403F下的各个用户已经隔离开来,但L区S2403F下的用户、C区S2403F下的用户和S3026下接的用户都同属于一个VLAN。他们之间并不能实现隔离。当C区有用户私自配置了DHCP服务器时,L、G区下的用户就会从C区本VLAN的DHCP服务器获得不正常的IP,而导致不能正常上网。C区下面的其他用户却因为自身和C区的DHCP服务器之间作到了隔离而按三层设备所指向DHCP Relay指定的DHCP服务器获得正确的IP地址。 网络用户私自安装配置DHCP服务器导致其它用户上网不正常网络用户私自安装配置DHCP服务器导致其它用户上网不正常处理过程
在G区下获取错误的配置信息,查看此时的DHCP服务器地址。该地址即为该单元中一用户地址。
向该用户计算机发一个ping包,同时用抓包工具进行抓包。在抓取的信息中获得该用户计算机的MAC地址。
登陆G区S3026。查看该MAC地址与端口的对应关系。确定出该用户为来自C区S2403F下的用户。再登陆C区S2403F,确定在S2403F上该MAC地址与端口的对应关系。
查看端口连线,确定用户为接于C区S2403F下某一用户。
关闭该用户的DHCP服务后网络正常。 null物理层问题
端口协商以及自环问题
VLAN问题
集群管理和网络管理问题
设备兼容问题
其他问题目录集群故障排除综述集群故障排除综述集群故障排除的关键在于清楚掌握集群的原理
集群是网络管理的一种重要手段和方法
集群故障绝大多数为全网设备不能够同时进行正常管理
不同的集群实现方法采用不同的机制,由于理解不深刻导致集群管理失败的可能性较大。集群简介集群简介H3C系列交换机提供的集群管理,目前主要有两个版本。
HGMP V1:采用Server/Client的方式进行管理
HGMP V2:包含命令交换机,成员交换机和候选交换机三种角色
HGMP协议的功能:
对交换机实现集中管理
交换机的注册
软件的升级
配置查询和设定
重启动等操作
支持交换机的级联工作方式
HGMP V1简介HGMP V1简介HGMP V1:采用Client/Server的方式进行管理
HGMP Client主要要求根据管理设备下发的维护和查询命令作出相应的处理,同时保证与管理设备之间的通信。可以担当HGMP Client的以太网交换机有:
S2008B,S2016B,S2026B、S2403F等
HGMP Server主要是提供人机命令输入接口,控制维护命令的显示,同时提供一定的数据结构以存储其下挂的多台以太网交换机的相关信息。既可以担当HGMP Client也可以担当HGMP Server的以太网交换机有:
S2008,S2016,S2026,S2403H,S3026等HGMP V2简介HGMP V2简介HGMP V2:包含命令交换机,成员交换机和候选交换机三种角色
管理交换机:
提供管理接口,发现邻接信息、收集整个网络的拓扑结构、管理集群、维护集群状态、支持各种代理
成员交换机
发现邻接信息、接受管理设备的管理、执行代理发过来的命令、故障/日志上报
候选交换机
没有加入任何集群中但具有集群能力、能够成为集群成员的交换机
HGMP V2还利用NDP和NTDP协议提供了网络拓扑发现功能和网络拓扑收集功能网络管理故障排除综述网络管理故障排除综述网络管理故障排除主要有如下两种:
网络设备和网管之间的通信故障
网络设备的网管配置错误
网络设备和网管之间的通信故障
此种故障应该属于网络连通性的问题。其具体故障排除过程参见其他部分。但是在网络管理故障排除时,我们首先应该确认是否属于此类问题
网络设备的网管配置错误
网络管理协议SNMP版本不匹配
SNMP的团体属性不匹配
SNMP的用户名和密码不匹配HGMP V1&V2配合解决方案 HGMP V1&V2配合解决方案 现象描述
无法通过单一的集中管理方式同时实现S6506、S3026、S2016B的集中管理。
原因分析
S6506只支持HGMP V2;
2016B只支持HGMP V1 Client;
S3026支持HGMP V1 Server和Client,也支持HGMP V2;
HGMP V1和HGMP V2不能直接互通。HGMP V1&V2配合解决方案HGMP V1&V2配合解决方案HGMP V1S2403FS2026BS2008BS2016B中低端系列等以太网交换机构成的网络,它们之间以HGMP V2进行管理S6506S2403HS3026S6506HGMP V1&V2配合解决方案HGMP V1&V2配合解决方案处理过程
S3026作集群命令交换机;
S2403H作集群的成员交换机和HGMPV1.0的Server;
S2016B作HGMPV1.0的Client;
解决办法
在S3026上可以实现对S2403H的管理,可以使用命令Cluster switch-to登录S2403H,在S2403H上可以实现对S2016B的管理。 设备重启后导致集群管理失败设备重启后导致集群管理失败现象描述
S3026E作为Cluster的命令交换机,S3026作为成员交换机。组网如图所示:
配置集群成功后,能够看到成员交换机S3026,重启S3026以后,发现通过集群命令无法登录成员S3026,使用命令查看发现能够看到成员交换机S3026的MAC地址,但状态为down。
[H3C_0.H3C] display cluster member
SN Device MACAddress Status Name
0 H3C S3026E 00e0.fc80.0030 Admin H3C_0.H3C
1 H3C S3026 00e0.fc06.768c Down H3C_1.H3CS3026E 命令交换机S3026 成员交换机重启后状态为DOWN集 群设备重启后导致集群管理失败设备重启后导致集群管理失败原因分析
查看S3026的配置信息,发现没有任何关于Cluster的配置数据。
查看命令交换机S3026E有如下相关Cluster的配置信息:
ip-pool 10.10.10.1 255.255.255.0
build H3C
add-member 1 mac-address 00e0.fc08.768c
在两台交换机都掉电重启之前,命令交换机S3026E保存了配置数据,而成员交换机没有保存数据,导致集群管理失败。设备重启后导致集群管理失败设备重启后导致集群管理失败处理过程
在命令交换机上使用命令Auto-build重新收集成员信息,然后将收集到的成员加入到集群中。
[H3C_0.H3C]auto-build
Collecting candidate list, please wait...
Candidate List:
Name Hops MAC Address Device
3026 1 00e0.fc06.768c H3C S3026
Add all Candidates?(Y/N)y
Cluster setup Finish!
1 member(s) added successfully.
分别在成员交换机和命令交换机上保存配置数据。再次重启检查集群工作状态,正常。
总结与建议
命令交换机和成员交换机在保存数据时,会将集群的所有信息(包括MAC地址信息)保存下来,作为是否在集群之内的依据。如果单方向保存,重启之后,交换机不会重新进行成员搜索和成员
报告
软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载
。导致成员交换机状态为down。
配置完集群之后,一定要在命令交换机和所有成员交换机上保存配置。网管无法管理到S系列交换机 网管无法管理到S系列交换机 现象描述
用户安装一套Quidview-F的IP型网管系统,反映无法管理 S系列交换机(S3026、S5516、S8016),但能管理AR系列路由器。如果在Quidview中输入IP地址单独对交换机进行管理时提示如下错误信息:
团体名错误;
IP地址错误;
网络超时;
原因分析
系列交换机(S3026、S3526、S5516、S8016等),缺省没有配置任何SNMP功能和参数(即没有打开SNMP功能),必须手工添加SNMP相关配置(团体名)。
一般情况下,我们认为SNMP功能是打开的,采用缺省的SNMP配置即可与网管通信。如H3C的AR系列路由器。网管无法管理到H3C S系列交换机网管无法管理到H3C S系列交换机处理过程
首先检查设备IP地址(用Telnet 命令可以登录设备),说明IP地址无误。
检查网络是否超时(用ping测试),TIME<10ms,网络状态良好。
检查设备SNMP的团体名(进入交换机控制台后,查看相关配置(display current-configuration、display snmp-agent),发现交换机配置文件中无任何SNMP相关配置。
手工增加SNMP团体名后,问题解决。
总结与建议
网络设备的网络