资源描述
传输设备专业L1级 常见故障分析及处理,课件简介,授课人简介,个人照片,》基本资料,姓名:王成峰
工作单位:河南移动洛阳分公司网络部
手机号码:15838581136
电子邮箱:wangchengfeng@ha.chinamobile.com,》教育及培训经历,毕业院校:国防信息学院
学历:大学本科
专业培训经历:
2013年3月:参加华为PTN设备培训学习,获中级工程师证书;
2013年9月:参加华为传输特种兵PTN专项技能提升学习,获高级工程师证书;
2014年3月:参加中兴PTN产品维护培训学习,获中级工程师证书;
2015年10月:参加华为数通产品(BRAS/SR)维护培训学习,获中级工程师证书;,》专业特长,从事传输设备维护管理工作7年,具有丰富的SDH/PTN/OTN设备维护经验,尤擅PTN和OTN设备维护管理。曾参加“2014沙场点兵——河南移动第六届岗位技能比武”活动,获”岗位技术能手”称号。,目录,Page 4,第1章 故障处理前准备工作
第2章 故障处理基本思路和方法
第3章 故障处理案例分析,故障定位前准备工作,掌握专业技能
熟悉传输设备(SDH/OTN/PTN)原理知识
了解传输系统告警信号流及告警产生机理
熟悉传输设备和网管的基本操作
熟悉常用仪表的基本操作,Page 5,熟悉工程组网信息
网络拓扑
业务配置
设备运行状态
工程文档
做好故障现场数据的采集与保存,Page 6,故障定位前准备工作,目录,Page 7,第1章 故障处理前准备工作
第2章 故障处理基本思路和方法
第3章 故障处理案例分析,故障定位基本原则,Page 8,故障定位的关键是什么?,将故障准确定位到单站,先定位外部,后定位传输
先定位单站,后定位单板
先高速部分,后低速部分
先分析高级别告警,后分析低级别告警,Page 9,,,故障定位基本原则,故障分析方法,Page 10,环回法,替换法,配置数据分析法,更改数据配置法,告警、性能
分析法,仪表测试法,经验处理法,故障处理方法(告警、性能分析法),通过设备告警指示灯获取告警信息,Page 11,一、通过机柜顶部的告警指示灯查看告警
二、通过单板告警指示灯查看告警,,设备指示灯仅反映设备当前的运行状态,对于设备曾经出过故障,无法表示
设备指示灯状态只能反映设备告警级别,而不能准确告知具体告警,缺点,适用于设备维护人员配合处理故障时使用,故障处理方法(告警、性能分析法),通过网管获取告警和性能信息,Page 12,适用于网管维护人员处理故障使用,,全面性,不仅仅是一个站、一块板的故障信息,而且是全网设备的故障信息,,详实性,能够获取设备当前存在哪些告警、告警发生时间,以及设备的历史告警;能够获取设备性能事件的具体数值,故障处理方法(环回法),Page 13,,,,,,线路,线路,,,,内环回,外环回,SDH网元设备,,支路,,支路,软件环回/硬件环回
内环回/外环回
线路环回/支路环回,线路环回可能导致
其它在用业务中断,,,,,,内环回,,外环回,故障处理方法(环回法),Page 14,,,,,4.初步定位单板问题,“环回法”的步骤:,1.环回业务通道采样,2.画业务路径图,3.逐段环回,定位故障站点,,故障处理方法(环回法),Page 15,一、环回业务通道采样:,1、从多个有故障的站点中选择一个站点;
2、从所选择站点的多个故障业务通道中选择其中的一个业务通道。由于自环第一个VC4通道,可能会影响ECC通信,因此尽量不要选择第一个VC4通道内的业务。,,故障处理方法(环回法),Page 16,画出所采样业务一个方向的路径图。
在路径图中表示出:该业务的源和宿,该业务所经过的站点,该业务所占用的VC4通道和时隙。,二、画业务路径图:,例如:,,故障处理方法(环回法),Page 17,依据中断业务的路径图,在3号站第1块支路板的第1个2M通道外接一个2M误码仪,监测业务好坏。,三、逐段环回,定位故障站点,,,,四、根据环回现象初步定位故障单板,故障处理方法(替换法),Page 18,,适用场合,排除传输外部设备的问题
故障定位到单站后,排除单站内单板的问题,,,替换法就是使用一个工作正常的物件去替换一个
被怀疑工作不正常的物件,可替换物件包括线缆、光纤、法兰盘、电源、单板、设备等。,故障处理方法(配置数据分析法),Page 19,,适用场合,故障定位到单站后,用以进一步定位故障
特定告警,如:HP_TIM、HP_SLM等,,HP_TIM:J1字节设置
HP_SLM:C2字节设置
TU_AIS/AU_AIS:SDH业务配置
TPS倒换下业务中断:检查TPS保护设置
MSP环倒换下业务中断:MSP节点参数设置
SNCP环倒换下业务中断:通道保护属性设置,,,,,,,故障处理方法(更改配置法),Page 20,,适用场合,有空余时隙、通道或槽位
一个VC4中部分时隙业务中断情况,,更改时钟配置:时钟告警、指针调整
更改板位配置:怀疑单板或是母板槽位故障
更改时隙配置:将故障定位到单站
判定线路或支路故障
更改单板参数配置:以太网故障、对接故障,,,,,,,故障处理方法(仪表测试法),Page 21,,适用场合,排除传输设备外部问题
设备对接问题
设备性能指标问题,,光功率计:R_LOS、R_LOF
万用表:接地或是电压问题
SDH分析仪:设备对接,,,,,,,故障处理方法(经验法),Page 22,,适用场合,仅做为应急处理时使用,临时恢复业务,复位单板
单站重启
重新下发配置
将业务倒到备用通道,,,该方法不能彻底查清故障原因,除非不得已,建议使用其他方法,故障处理方法(总结),Page 23,故障处理思路(总结),Page 24,1. 排除传输外部设备故障
分离传输问题还是其他设备问题
光纤故障的排除
中继线缆故障的排除
供电电源故障的排除
接地问题的排除,2.故障定位到单站
将故障定位到单站,可以使用“环 回法”和“更改配置法”。
告警性能分析法,也是将故障定位 到站点比较常用的方法。,3.故障定位到单板并最终排除
故障定位到单站后,进一步定位故障位置最常用的方法就是替换法。,问题,故障处理的基本原则是什么?
故障定位的分析方法有哪些,都适用于什么情况?
以R_LOS告警为例简述一下故障处理思路?,Page 25,,Page 25,,,目录,Page 26,第1章 故障处理前准备工作
第2章 故障处理基本思路和方法
第3章 故障处理案例分析,业务中断类故障(1),外部原因
供电电源故障
接地故障
环境异常
光纤、电缆故障
人为原因
误操作设置了光路或支路通道的环回
误操作更改、删除配置数据,设置业务未装载
设备本身故障
单板失效或性能不好,Page 27,可能原因,业务中断类故障(2),Page 28,,定位方法,告警分析法
更改配置法
逐段环回法
替换法,,定位步骤,检查各站登录是否正常
检查有无设备告警,如BD_STATUS、NO_BD_SOFT等
检查保护倒换是否正常
分析故障,通过环回或是更改配置定位到单站
将故障进一步定位并解决,网络配置
网元1为中心节点,为网关网元
其他各点之间没有业务,Page 29,业务中断类故障(3),TU_AIS,LP_RDI,,故障描述
网元1和网元4 E1业务中断
节点 4:TU_AIS
节点 1: LP_RDI
其它各站业务正常,无其它告警,t2:1,t2:1,2:1,2:1,2:1,,,案例:无保护链,Page 30,,,,,业务中断类故障(4),1,2,3,4,,,,,,,w,w,w,w,E,E,,,,,,,,,TU_AIS,LP_RDI,t2:1,t2:1,2:1,2:1,2:1,,告警查询,网元4有
TU_AIS,网元4不能收网元1业务,网元1、2、3间业务正常,检查1到4的业务配置,告警分析步骤,可否做环回
操作?,正确,Page 31,业务中断类故障(5),1,2,3,4,,,,,,,w,w,w,w,E,E,,,,,,,,,误码仪,,,t2:1,t2:1,2:1,2:1,2:1,,对网元2东向
#2VC4做内环回,,正常,,故障点在网元1、2,,故障点在网元3、4,,在网元3东向对
#2VC4做内环回,,正常,,故障点在网元3,,故障点在网元3或网元4,,用尾纤在网元3东向做内环回,,正常,,故障在网元3东向光板,,故障在网元4,Page 32,业务中断类故障(6),1,2,3,4,,,,,,,w,w,w,w,E,E,,,,,,,,,TU_AIS,LP_RDI,t2:1,t2:1,2:1,2:1,2:1,,故障定位到单站,,可能LU/TU/XC 故障,,业务正常,,TU故障,更换TU,,XCS主备倒换,,TPS 倒换,,,业务正常,,XCS故障,更换XCS,,LU故障,更换LU,若无TPS或XCS
主备怎么办?,误码类故障(1),外部原因
光功率问题
接地故障
环境温度
电缆故障
设备外部干扰(瞬时大误码)
人为原因
时钟配置错误
设备本身故障
单板失效或性能不好(交叉、时钟、线路、支路),Page 33,可能原因,,告警性能分析法、更改配置法、逐段环回法、替换法,,误码类故障(2),Page 34,,是否所有站都有B1、B2误码,,,,检查环境温度,是,否,时钟/交叉问题,是否仅本站有B1、B2误码,,是,光功率问题,,检查本站或上游站
光纤、光板,,否,是否有高阶B3误码,,是,本站或上游站线路/交叉/时钟故障,,否,是否有V5误码,,是,本站或上游站支路/交叉/时钟故障,,否,仪表测试有误码、
性能上报无误码,,是,DDF/电缆接地问题,定位步骤,误码类故障(3),网络配置
网元1为中心节点,其他点均与网元1有业务
其他各点之间没有业务,Page 35,故障描述
网元3东向有大量RSBBE、MSBBE、HPBBE
网元4西向有MSFEBBE、HPFEBBE、LPFEBBE
网元1有LPBBE,Page 36,误码类故障(4),1,2,3,4,,,,,,,w,w,w,w,E,E,,,,,,,,,LPBBE,LPFEBBE,RSBBE、MSBBE、HPBBE,MSFEBBE、HPFEBBE,,,,排除外部故障
(电磁干扰、
温度),,性能事件分析,,,,,,,LPBBE 为1收4误码,,RSBBE/MSBBE/HPBBE
为从4到3光路误码,,,,,,,高阶误码导
致低阶误码,,,,,继续,故障在3与4之间,,告警性能分析,Page 37,误码类故障(5),1,2,3,4,,,,,,,w,w,w,w,E,E,,,,,,,,,LPBBE,LPFEBBE,RSBBE、MSBBE、HPBBE,MSFEBBE、HPFEBBE,,,,,,解决问题,,继续,检查3、4风扇和温度,,正常,是,,否,,,,正常,是,,否,替换光纤、接头、法兰盘、单板,用仪表测试光功率(通过性能查询),,,,告警性能分析,,,替换法,Page 38,误码类故障(6),1,2,3,4,,,,,,,w,w,w,w,E,E,,,,,,,,,LPBBE,LPFEBBE,RSBBE、MSBBE、HPBBE,MSFEBBE、HPFEBBE,,,在网元1接误码仪,在网元3东向做光/电口内环回,,环回、替换法,,正常,网元4西向光板/XCS,,不正常,网元3东向光板/XCS,,,网元4交叉主备倒换,,网元3交叉主备倒换,,,正常,不正常,XCS故障,光板故障,,,正常,不正常,XCS故障,光板故障,链路故障定位流程,Page 39,,,,,,,,ETH端口常见告警(一),Page 40,BTS 1,CES,,,CES,BTS 2,PTN,PTN,,ETH,BTS 3,PTN,MPLS,,,,,PTN,,PTN,,,MPLS,,PTN,,,BSC,CoreNetwrok,,,,PTN,BSC,,,,,10G/GE,GE/FE,STM-1,STM-1,,10G/GE,ETH_LOS
光信号丢失,ETH_LOS:(1)光纤断;(2)光模块坏;(3)光衰减过大;
ETH_LINK_DOWN:两端工作模式不一致,造成协商失败;电缆、光纤连接或者对端设备故障。
MAC_FCS_EXC:MAC层检测到误码越限;线路信号劣化;光纤性能劣化;光口不洁净。,ETH_LINK_DOWN
网口连接故障,MAC_FCS_EXC
误码越限,故障原因:,ETH链路类故障(1),Page 41,ETH_LOS——以太网端口连接丢失告警
可能原因:
原因1:以太网端口的电缆或光纤没有连接好;原因2:电缆或光纤故障;
原因3:本端网元接收光功率过低;原因4:单板故障。
处理步骤:
原因1:以太网端口的电缆或光纤没有连接好。
检查以太网端口的电缆或光纤是否接好,插紧松脱的电缆或光纤。
原因2:电缆或光纤故障。
检查电缆或光纤是否存在故障,更换故障的电缆或光纤。
原因3:本端网元接收光功率过低。
在网管上查看对端网元是否存在OUT_PWR_ABN告警。若存在,优先清除该告警后,查看本告警是否清除。若告警未清除,清洁接收光口及光纤头表面。若告警仍未消除,检查法兰盘或光衰减器是否连接正确,光衰减器的衰减值是否过大。正确使用法兰盘或光衰减器。
原因4:单板故障。
更换上报告警的处理板。若告警未消除,更换对端网元对应的处理板。,,ETH链路类故障(2),Page 42,ETH_LINK_DOWN——网口连接故障告警
可能原因:
原因1:本端网元和对端网元的端口工作模式不一致,造成协商失败;原因2:端口内环回。
原因3:纤缆连接到错误的端口;原因4:单板故障。
处理步骤:
原因1:本端网元和对端网元的端口工作模式不一致,造成协商失败。
在网管上查看两端网元的以太网端口工作模式是否一致。若不一致,修改设置,使两端的端口工作模式一致后,查看告警是否清除。
原因2:端口内环回。
在网管上查看两端端口是否存在LOOP_ALM告警,若存在,优化清除LOOP_ALM告警后,查看本告警是否清除。
原因3:纤缆连接到错误的端口。
对照网元规划表,查看上报告警的端口是否错插了纤缆,造成两端端口工作模式不一致。重新正确连接纤缆,清除告警。
原因4:单板故障。
在网管上查看两端网元的相关单板是否存在HARD_BAD等硬件类告警。若存在,更换存在硬件类告警的单板后,查看本告警是否清除。,,ETH链路类故障(3),Page 43,MAC_FCS_EXC——MAC层检测到误码越限告警
可能原因:
原因1:线路信号劣化。
原因2:输入光功率不正常。
原因3:光纤头表面不清洁。
处理步骤:
原因1:线路信号劣化。
在网管上查看是否存在LOOP_ALM告警。若存在,优先清除LOOP_ALM告警后,查看本告警是否清除。若告警未清除,在网管上检查是否存在DOS攻击等。若存在,消除非法发送大量数据的根源,查看告警是否清除。 若告警仍未清除,查看光纤或电缆是否存在故障。更换故障的光纤或电缆后,查看告警是否清除。
原因2:输入光功率不正常。
查看上报本告警的端口是否同时上报IN_PWR_ABN告警。若存在,优先清除IN_PWR_ABN告警后,查看本告警是否清除。
原因3:光纤头表面不清洁。
清洁光纤头表面和处理板接收光口。,SDH链路类故障(二),Page 44,BTS 1,CES,,,CES,BTS 2,PTN,PTN,,ETH,BTS 3,PTN,MPLS,,,,,PTN,,PTN,,,MPLS,,PTN,,,BSC,CoreNetwrok,,,,PTN,BSC,,,,,,GE,GE/FE,STM-1,STM-1,,GE/10GE,R_LOS
光信号丢失,R_LOS: (1)断纤;(2)线路衰耗过大;(3)对端站发送部分故障,线路发送失效;
R_LOC:(1)接收到的信号失效;(2)时钟提取模块故障;
R_LOF: (1)接收信号衰减过大;(2)对端站发送信号无帧结构;
(3)本板接收方向故障,R_LOC
时钟丢失,R_LOF
帧丢失,故障原因:,SDH端口常见告警(1),Page 45,R_LOS——线路接收侧信号丢失告警
可能原因:
激光器原因1:本端光口未使用,却开启激光器。
激光器原因2:本端网元开启了激光器,但对端网元激光器关闭,造成无光信号输出。
光纤原因1:本端单板光接口处未连接尾纤或者尾纤连接错误。
光纤原因2:断纤。
光纤原因3:接收光功率过低。
单板原因1:本端网元接收单板故障,线路接收失效。
单板原因2:对端网元发送单板故障,线路发送失效。
处理步骤:
激光器原因1:本端光口未使用,却开启激光器。
在网管上查看光口的“激光口开启状态”是否为“关断”。若不是,关闭光口的激光器。
激光器原因2:本端网元开启了激光器,但对端网元激光器关闭,造成无光信号输出。
在网管上查看对端网元对应光口的“激光口开启状态”是否为“开启”。若不是,开启对端光口的激光器。,,SDH端口常见告警(1),Page 46,处理步骤:
光纤原因1:本端单板光接口处未连接尾纤或者尾纤连接错误。
检查本端单板光接口处是否正确连接尾纤。若尾纤未连接或者尾纤连接错误,请正确连接尾纤。
光纤原因2:断纤。
检查是否存在断纤。若存在,更换光纤。
光纤原因3:接收光功率过低。
在网管上查看对端发送光口是否存在OUT_PWR_ABN告警。若存在,优先清除对端光口的告警后,查看本告警是否清除。若告警未清除,清洁接收光口和光纤头表面。若告警仍未清除,检查法兰盘或光衰减器是否连接正确,光衰减器的衰减值是否过大。正确使用法兰盘或光衰减器。 若告警仍未清除,通过增减光衰减器调整接收光功率至正常范围内。
单板原因1:本端网元接收单板故障,线路接收失效。
若本端单板接收光功率正常,设置端口为“内环回”。若告警未清除,说明本端单板故障。更换故障单板。
单板原因2:对端网元发送单板故障,线路发送失效。
更换对端网元相应的处理板。若告警未清除,更换对端网元的交叉板。,,SDH端口常见告警(2),Page 47,R_LOF——线路接收侧帧丢失告警
可能原因:
原因1:两端光接口类型,即光模块类型不一致。例如一端为STM-1,另一端为STM-4。
原因2:接收光功率异常。
原因3:光纤错连。
原因4:对端发送信号无帧结构。
原因5:本端接收单板故障。
处理步骤:
原因1:两端光模块类型不一致。
依照网络规划,查看两端光模块类型是否正确。若不正确,更换正确的光模块。
原因2:接收光功率异常。
在网管上查看上报告警的光口是否存在IN_PWR_ABN告警。若存在,优先清除IN_PWR_ABN告警后,查看本告警是否清除。,,SDH端口常见告警(2),Page 48,处理步骤:
原因3:光纤错连。
检查光纤是否存在错连。如存在,修正错误的连接后,查看告警是否清除。
原因4:对端发送信号无帧结构。
在网管上查看对端发送单板是否存在HARD_BAD告警。若存在,优先清除对端发送单板的HARD_BAD告警后,查看本告警是否清除。
原因5:本端接收单板故障。
在网管上查看本端接收单板是否存在HARD_BAD告警。若存在,优先清除HARD_BAD告警后,查看本告警是否清除。,,E1链路类故障(三),Page 49,BTS 1,CES,,,CES,BTS 2,PTN,PTN,,ETH,BTS 3,PTN,MPLS,,,,,PTN,,PTN,,,MPLS,,PTN,,,BSC,CoreNetwrok,,,,PTN,BSC,,,,,,GE/10GE,GE/FE,STM-1,STM-1,,GE/10GE,T_ALOS
信号丢失,T_ALOS:(1)E1/T1业务未接入;(2)DDF架侧E1/T1接口输出端口脱落或松动;UP_E1_AIS:(1)对端网元存在T_ALOS告警;(2) E1端口设置了内环回;( 3)单板故障。
DOWN_E1_AIS:原因1:本单板存在UP_E1_AIS或者T_ALOS告警。原因2:单板故障。,UP_E1_AIS
上行方向2M信号告警指示,DOWN_E1_AIS
下行方向2M信号告警指示,故障原因:,E1端口常见告警(1),Page 50,T_ALOS——E1接口信号丢失告警
可能原因:
原因1:对端未发送E1业务。
原因2:E1电缆脱落或松动。
原因3:对端设备故障。
原因4:电缆故障。
原因5:上报告警的接口板故障。
处理步骤:
原因1:对端未发送E1业务。
查看对端的E1业务是否正常发送。若没有,恢复对端E1业务的正常发送。
原因2:E1电缆脱落或松动。
检查E1电缆是否存在脱落或松动。若存在,插紧脱落或松动的电缆,确保电缆与端口良好接触。,,E1端口常见告警(1),Page 51,处理步骤:
原因3:对端设备故障。
在DDF架处对告警通道做自环(硬件内环回)。若告警消失,说明对端设备故障。优先排除对端设备的故障。
原因4:电缆故障。
若在DDF架处对告警通道做自环后告警未消失,在接口板处对告警通道做自环(硬件内环回)。 若告警消失,说明E1电缆故障。更换E1电缆。
原因5:上报告警的接口板故障。
若在接口板处对告警通道做自环后告警未消失,在网管上对告警通道进行内环回设置。若告警消失,说明接口板故障,更换接口板。,,E1端口常见告警(2),Page 52,UP_E1_AIS——上行方向2M信号告警指示。如果上行E1信号全1,上报此告警。
可能原因:
原因1:对端网元存在T_ALOS告警。
原因2:E1端口设置了内环回。
原因3:单板故障。
处理步骤:
原因1:对端网元存在T_ALOS告警。
在网管中查看对端网元是否存在T_ALOS告警。若存在,优先清除对端的T_ALOS告警后,查看本告警是否清除。
原因2:E1端口设置了内环回。
在网管上查询E1端口是否存在LOOP_ALM告警。若存在,修改E1端口配置为“不环回”后,查看本告警是否清除。
原因3:单板故障。
在网管上查询本端网元和对端网元是否存在HARD_BAD等硬件类告警。若存在,硬复位上报硬件告警的单板,查看本告警是否清除。若告警未清除,更换相应单板后,查看本告警是否清除。,,E1端口常见告警(3),Page 53,DOWN_E1_AIS——下行方向2M信号告警指示。如果单板检测到下行E1信号全1时就会上报此告警。
可能原因:
原因1:本单板存在UP_E1_AIS或者T_ALOS告警。
原因2:单板故障。
处理步骤:
原因1:本单板存在UP_E1_AIS或者T_ALOS告警。
在网管上查看本单板是否存在UP_E1_AIS或者T_ALOS告警。若存在,优先清除UP_E1_AIS或T_ALOS告警后,查看本告警是否清除。
原因2:单板故障。
在网管上查看本单板和交叉板是否存在HARD_BAD等硬件类告警。若存在,硬复位上报硬件类告警的单板,若本告警未清除,更换相关单板后,查看本告警是否清除。,,问题,简述ETH链路类产生原因及故障处理步骤?
简述误码问题的故障处理步骤?,Page 54,,,,总结,Page 55,本课程我们主要学习了:
了解故障处理的基本原则
掌握故障处理的常用方法
了解业务中断类、误码类、ETH链路类故障的处理思路和处理步骤,谢谢!,
展开阅读全文
相关搜索