唐山移动WLAN系统应急预案2012-8-16.doc

上传人:99****p 文档编号:1630297 上传时间:2019-03-09 格式:DOC 页数:14 大小:259KB
下载 相关 举报
唐山移动WLAN系统应急预案2012-8-16.doc_第1页
第1页 / 共14页
唐山移动WLAN系统应急预案2012-8-16.doc_第2页
第2页 / 共14页
唐山移动WLAN系统应急预案2012-8-16.doc_第3页
第3页 / 共14页
唐山移动WLAN系统应急预案2012-8-16.doc_第4页
第4页 / 共14页
唐山移动WLAN系统应急预案2012-8-16.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、唐山移动 WLAN 系统应急预案中国移动通信集团河北有限公司唐山分公司2012 年 8 月 07 日目 录(一) 应急方案启动条件 .1(二) 应急方案执行原则 .1(三) 网络结构现状 .2(四) 重点关注的指标 .5(五) 故障时需要上报省公司的数据 .6(六) 破坏原因及破坏结果分析 .6(七) 预防保障措施 .7(八) 应急措施 .7(九) 告警处理 .9(十) 工作流程图 .13(十一) 应急资源配备(含备件 ) .13(十二) 知晓范围 .13(十三) 相关人员联系表 .14(一) 应急方案启动条件 大量 WLAN 用户投诉无法正常使用,启动应急预案。 全网 WLAN 业务中断,启

2、动应急预案。 若 AC 功能模块出现异常,导致无法登录 AC 系统,无法采集网络数据影响到业务的使用和省网管中心的监控,启动应急预案。 主用 AC 硬件故障宕机,启动应急预案。 主用 AC 与核心 S9312 的链路中断,启动应急预案。 主用 AC 业务故障导致下挂所有站点业务无法使用,启动应急预案。 WLAN 系统关键双机设备中的主机宕机(核心交换机双机、四层交换机双机、交换机双机、防火墙双机等),业务中断,启动应急预案。(二) 应急方案执行原则 先抢通,再抢修,尽快恢复业务。以对业务系统的影响最小化为指导思想,力争业务不中断。 排障过程要将业务影响情况及时上报领导和通知监控室,及时对地市通

3、报。 在网络设计上单台设备的故障是不引起业务的全阻断。在发现单台设备的故障时最主要是要检查配对的设备是否能负荷故障设备所承载的业务。 由于目前 WLAN 系统上并没有接入带外管理网络,所以在发现设备阻断故障时必须由本地维护人员到达设备端登陆设备。检查设备运行情况、传输线路情况等,并做好对路由器端口、路由等方面检查记录,确定故障点。为故障处理提供原始记录。 当 WLAN 网络出现严重故障,根据故障现象准确定位故障点,汇聚层问题还是接入层问题。汇聚层设备主要查看 AC 是否正常运行,AP 有没有获取到 IP 地址,AP 与 AC 是否已经关联上,AC 是 否给 AP 下发模板,VLAN 号是否一致

4、。S9312 交换机是否正常运行,接 入层设备主要查看接入层交换机是否正常运行,所配置的 VLAN 号是否一致,是否有做透传。以上执行原则需在公司的统一指挥下和其它部门一起解决。(三) 网络结构现状唐山 WLAN 网络采用集中转发模式、AC 认证、二层组网和三层组网并存,AC 转发用户数据流到 S9312 再到 RADIUS 做推送认证、,AC 管理与配置 AP, AC 作为用户 DHCP 服务器和认证点。唐山本地 WLAN 网络核心交换机采用华为 S9312、 AC 和 AP 采用福建三元达、武汉虹信和天津京信 3 个厂家设备,汇聚交换机和 POE 交换机采用中兴、烽火和锐捷厂家设备进行组网

5、。业务承载传输方式采用 PTN 设备、SDH 设备。下图为网络拓扑图(四) 重点关注的指标需要关注的内容有:1、地址池利用率均值 ,粒度为每天,正常情况下地址池利用率不超过 80%。查看方法:登陆省内数据网管报表分析业务报表 WLAN 本地报表 AC 地址池利用率统计查询;2、AC 性能,粒度每天,正常情况下 CPU 和内存利用率都在 50%以内;查看方法:登陆省内数据网管设备报表 AC查询;3、由于 AC 原因导致认证失败率,粒度每天,按照集团公司和省公司要求 CMCC 和 CMCC-EDU认证成功率应保证在 99.6 以上。查看方法:登陆省内数据网管报表分析业务报表 WLAN 本地报表 全

6、省 AC 设备 radius 认证统计 / radius 认证查询;4、无流量 AP 清单,粒度每天,正常情况不会产生,如果连续几天都为无流量,则需要察看 AP 是否吊死;查看方法:登陆省内数据网管报表分析业务报表 WLAN 本地报表 AP 无流量清单查询;5、离线 AP 清单,粒度每天,如果连续多天均为离线状态,需要上报省公司原因查看方法:登陆省内数据网管(五) 故障时需要上报省公司的数据设备出现故障时,没有数据需要手工上报省公司。(六) 破坏原因及破坏结果分析从统计分析的结果看来,在 WLAN 系统上引起故障或有破坏性的原因主要有以下几种:1. 设备本身的原因(软件、硬件)从设备本身的原因

7、来看也可以分为软件 Bug 和硬件 BUG,这一类的故障比较隐蔽,一般需要厂家的协助才能检查出来,所以对于此类的故障要通过加强与厂家之间的沟通来解决,及时升级相关的软件版本和补丁,更换存在隐患的硬件板卡。这类原因引起的故障针对影响范围和规模也会有所不同。2. 传输线路、尾纤等物理线缆的原因传输线路、尾纤等物理线缆由于线路质量,光缆被盗,光缆被挖断等的问题引起的故障一般可能通过设备的 LOG 文件、端口状态情况等检查出来,对于该类的故障需要加强与传输部门和机房现场人员的沟通来解决。这类原因引起的故障如果在 S9312 和 AC 侧一般影响一条传输线路或者某 1 台AC。但如果发生在接入侧则可能影

8、响某些用户无法正常使用 WLAN 业务。3. 人为原因由于人为配置或操作失误引起的故障,这类的故障是我们管理上要着力避免的。可通过管理制度去约束网络维护人员,代维人员,厂家等在网络上进行的操作。建立起操作审核制度、操作更变规程等相关的规范化制度。4. 自然灾害由于台风、洪涝、地震等各类自然灾害的影响,对机房或动力环境等可能造成严重影响,可能导致整栋机楼、整个城市的瘫痪,从而给包括 WLAN 网络在内的整个网络造成严重影响。(七) 预防保障措施在 WLAN 系统的网络设计上已经避免了单台设备故障和单条链路中断对整个 WLAN 网络本身和对其上承载业务的影响。在网络上采用了以下技术去保证网络的安全

9、和稳定。 双节点、双平面网络设计在网络拓朴设计上各层面节点都采用了双节点、双平面的设计, ,严格按照主备设备异局址布放的原则,保证单节点故障或单平面故障时,业务流量都不会受到影响。 多链路、不同传输线路的保护WLAN 系统核心交换机和 AC 设备采用的双链路保护,且各层设备互联链路承载在不同的传输平面上。保证在发生灾害天气、光缆中断时不会造成节点的业务全阻断。3、主备 AC 的 VRRP 快速切换WLAN 系统中主备 AC 采用 VRRP 协议,保证主用 AC 出现故障时,由备用 AC 来代替出现故障的 AC进行工作,从而保持网络通信的连续性和可靠性。 (八) 应急措施1、S9312 侧故障(

10、1)S9312 互联链路为 2 条,承载在不同 SDH 传输平面上,当单条链路中断时,全网业务不受影响。当双链路中断时,可以将链路割接至波分传输平面上,保证业务的快速恢复。(2)如果发现所有单板的指示灯都不亮,并且所有风扇不转(可通过听声音辨别) ,或者电源模块的 ALARM 灯亮,则有可能是设备的供电系统出现故障,需要检修。检查电源模块的开关是否已经打开,RUN 灯是否点亮。如果有多个电源模块,请确保至少一个电源模块正常供电。检查电源模块的 ALARM 灯是否点亮。如果点亮,表明电源模块有异常,可尝试通过更换电源模块解决。(3)当发生无法登陆设备问题,在排除了串口通信、电缆、供电系统方面的原

11、因后,则很有可能是主控板发生了故障。如果系统有主备两块主控板,可尝试将配置电缆连接到备用的主控板上;如果只有一块主控板,可使用备件进行更换。(4)当发现S9312单播转发业务不通时,首先需要检查在设备上能否收到AC的报文。可以使用display mac 命令查看一段时间内设备接收的mac地址是否有变化。如果发现设备上无法收到AC的MAC,可按如下步骤进行处理:检查设备的上行接口的状态是否正常,如果对应AC接口状态正常,可以 Ping AC对端接口的 IP 地址。如果可以 Ping 通,则可以确认是AC设备出现故障,可通告相关AC进行检修。如果无法 Ping 通,则需要检查设备的对应接口和AC接

12、入设备的下行接口之间的链路,例如电缆是否完好、光模块和光功率是否正常、中继设备是否正常、IP 地址是否正确等。如果可以接收到AC侧MAC,但是下行无法转发出去,则需要检查 S9312 和下游设备之间的连接和通信.检查设备的下行接口的状态是否正常,如果下行接口状态正常,可以 Ping 下游设备的上行接口的 IP 地址。如果可以 Ping通,则可以确认是下游设备或更下游设备出现故障,可通告相关局点进行检修。如果无法 Ping 通,则需要检查设备下上行接口和下游设备的上行接口之间的链路,例如电缆是否完好、中继设备是否正常、IP 地址是否正确等。如果链路都是完好的,则有可能是 S9312 和上层设备之

13、间的通信异常,需要检查路由等设置。2、AC 故障(1)主用 AC 与核心 S9312 的链路中断,自动切换到备机工作不影响正常业务使用;(2)当主用 AC 硬件故障宕机,通过 VRRP 技术,确保主机出现故障时及时的启用备机,自 动切换业务链路,主用 AC 自动切换到备机工作不影响正常业务使用;当检测故障主机为硬件故障后,应及时更换备件,确保问题解决后,经过测试方可将业务切换回主机。(3)主用 AC 操作故障导致下挂所有站点业务无法使用,配置改动不当会造成用户掉线。(4)当发生主备切换故障时,确保主备状态正常,备份链路和备份对接端口正常。#show hotstandby group-info

14、进行主备状态查询#show hotstandby port-state 进行主备端口查询(5)当 AC 系统检测到网络攻击时,以下主要检查项如果发现问题,不影响业务的进行参数调整;对业务造成影响的及时切换到备机,并处理故障;如果 AC 查看显示网络攻击并且该 AC 所有业务无法使用则切断网络紧急排障。3、汇聚交换机和 POE 交换机故障(1)硬件故障如发生交换机遭雷击、漏电、过载、过热、安装操作不当、运行环境恶劣等导致的损坏,或设备自身硬件缺陷,使设备不能正常运行,业务、网管全中断,则更换整机。(2)供电问题POE 交换机若带的 AP 过多,可能导致后面的 AP 供不上电,无法上线带业务,可修

15、改调测 POE 供电参数,如果修改不能解决,可以减少 AP 数量或增加 POE 交换机。(3)端口环路当 POE 交换机个别端口下接的 AP 存在故障,或网线施工时存在问题,会导致该端口下有环路,引起广播风暴,影响整个热点的 AP 都无法上线,可在 POE 交换机业务口下开启 AP 管理vlan 的环路检测,当有环路时,自动阻塞该端口,保证其他 AP 业务正常,然后排查该端口。(4)设备吊死当设备吊死时,故障现象有时为业务和网管都不通,有时业务是好的但网管不通,一般重启 设备都能解决,如果重启仍不能恢复,按硬件故障处理方法处理。 (九) 告警处理常见维护中重要告警、常见问题的处理措施:AC 部

16、分:1 、设备升级失败无法工作【处理措施】:(1)AP 升级失败后请通过 TFTP 方式对设备进行升级。(2)AC 升级失败后请在设备开机后通过串口进行复位操作,rescue 后恢复出厂操作系统后再进行最新版本的升级。【操作指令】:无2、当 AC 串口出现分区错误,【处理措施】:此时需要对该分区进行格式化,否则对一些 AC 的参数配置保存会有影响。【操作指令】:常见的一些分区格式化操作方法:sda7 分区:umount /mnt/UserSetting_bak/mkfs.ext3 /dev/sda7dfmt3 /dev/sda7 新版本命令mount /dev/sda7 /mnt/UserSe

17、tting_bak/sda6 分区:umount /var/log/ mkfs.ext3 /dev/sda6dfmt3 /dev/sda6 新版本命令mount /dev/sda6 /var/log/ sda5 分区:umount /mnt/UserSetting_bak/mkfs.ext2 /dev/sda5dfmt3 /dev/sda5 新版本命令mount /dev/sda5 /mnt/UserSetting_bak/3、AC 的各接口的 MAC 出现全 0【处理措施】:AC 的各接口的 MAC 出现全 0 时,表示 AC 的 MAC 丢失了,这时需要 RD 做一个 ZCOMKEY 导入

18、到 AC 中,进行恢复。1、在 AC 启动的时候选择进入 rescue 这个系统。2、进入后然后输入:rescue3、等待设备重启。4、重启后串口可进入第二个系统,然后输入 ifconfig,查看一下 MAC 地址是否存在,如不存在的话需要输入:serial-number,将结果发给 RD,我们会做个 zcomkey 文件。5、将该文件拷贝到 C 盘根目录,更名为:zcomkey.dbg 然后 ftp 192.168.1.228 comba password put zcomkey.dbg6、在 AC 串口中输入:mv /home/sw/zcomkey.dbg /mnt/factory/zco

19、mkey 7、输入 reboot8、等设备重启完毕,进入 WEB 重新升级最新 FW 即可。【操作指令】:ifconfig;serial-number;reboot;4、AC 非法进程,或者缺少一些应用进程【处理措施】:可以手动在串口中将他重启。【操作指令】:# killall -9 sshd# killall -9 sshdkillall: sshd: no process killed /杀掉进程# sshd & /重启进程5、AC 的日志功能在 WEB 中无法显示【处理措施】:AC 的日志功能在 WEB 中无法显示,这大多是由于/var/log/messages 文件出错导致, 可进行如

20、下的操作进行恢复。【操作指令】:1. 串口进入 AC,或者 SSH 到 fullcontrol 下:2. cd /var/log /进入日志文件夹3. ls all /查看 messages 文件大小4. cat messages /读取 messages 文件是否有内容5. move messages messages_bak /备份 messages 文件6. touch messages7. ls /查看新建的文件是否存在8. /sbin/syslogd /启一下日志进程。6、AC 上出现 AP 异常离线故障分析思路【处理措施】:1、首先前往 AP 的 POE 交换机上接 PC,设置和

21、AP 同网段的地址去 ping AC 的 LAN 口,观察 ping包 的延时情况,如果 ping 包严重丢包,说明链路存在不稳定,环路等问题,需要链路厂家协助解决。2、排查 AP 的网线,POE 供电交换机是否正常,AP 是否有重启的日志,接 AP 的串口查看 AP 的:Get system bridge 是否拿到 AC 分配的地址,包括 AP 的 DHCPD,WLTPS 进程是否都在。3、如果 AC 和 AP 之间走的三层架构,AP 拿不到 AC 分配的地址的话,需要检查 DHCP RELARY 的设置是否正确,可以试试手动给 AP 指定地址,观察 AP 能否正常上线。4、检查 AC 的 NM 口,HB 口,瘦 AP 端口的地址是否存在冲突,如果冲突也会导致 AP 无法正常上线。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。