1、文档编号: 运营支撑保障 管理 规程 (Version 1.0) 2009 年 7 月 第 2 页 共 32 页 基本信息 文档名称 运营支撑保障 管理 规程 文档编号 当前版本 1.0 发布版本 1.0 起草时间 2009 年 6 月 定稿时间 2009 年 6 月 编制 姓名 部门 电话 电子邮件 郭海涛 运营管理部 曾宪龙 运维中心 林 杰 技术应用部 丁继承 IT 管理部 王秀双 产品管理部 审核 蔡高伟 备注 审阅人 修订记录 序号 修改时间 修改人 主要修改 存档版本 1 2 3 4 5 6 7 8 9 11 12 13 第 3 页 共 32 页 目录 1. 概述 .5 2. 运营
2、支撑保障体系架构 .6 2.1. 体系架构图 . 6 2.2. 各部门职责 . 6 2.3. 运营支撑各层面间的分工协作 . 8 3. 主动运维管理规范 .9 3.1. 主动运维的概念 .9 3.2. 建立预检、巡检及预警机制 . 10 3.3. 建立和完善故障处理预案制度 . 10 4. 故障管理规范 . 11 4.1. 故障定义 . 11 4.2. 故障的分级 . 13 4.3. 故障的超时与升级 . 14 4.4. 故障的受理与处理 . 14 4.5. 故障的通知通报机 制 . 17 5. 割接管理规范 . 18 6. 问题管理 . 26 第 4 页 共 32 页 6.1. 问题管理定义
3、 . 26 6.2. 问题的来源及分类 . 26 6.3. 问题管理的流程及分工 . 28 6.4. 问题管理的记录、报表及通报机制 . 29 6.5. 问题管理的考核 . 31 第 5 页 共 32 页 1. 概述 随着公司用户规模的不断扩大、公司合作区域的不断拓展和公司新产品、新应用的不断推出,运营维护及服务保障的压力越来越大,对各后台支撑部门的保障能力及部门间的协作提出了更高的要求,为规范公司的运营保障流程、加强运营支撑部门的分工协作、提高运维保障水平、提高用户故障响应及服务质量,从而确保为用户提供及时、准确、到位的运营支撑服 务,特制定本规程 。 本规程 界定了运营 支撑 保障 体系的
4、 架构 及 相关部门 人员 的职责 分工、部门间的协作流程、 主动运维 规范 、 故障受理及处理反馈 流程 、 割接管理规范、 问题管理 规范 等 涉及公司整体运营支撑保障的 各环节流程及 规范 。 本规程适用于 对已投入运行维护的各种业务承载网络、业务应用系统、业务服务系统以及各类支撑系统(包括已承载业务的在建网络系统和已有大量测试用户的测试系统)所涉及的 运营保障支撑 工作 。 本规程主要分为如下几个部分: 一、 运营支撑保障体系架构及分工协作 二、 主动运维管理 规范 三、 故障管理(受理及处理) 规范 四、 割接管理规范 五、 问题管理 规范 第 6 页 共 32 页 2. 运营支撑
5、保障 体系 架构 2.1. 体系架构图 采用四级技术支撑体系架构,分现场支持( 合作城市 运维 部 门 )、一线支持(指运维中心)、二线支持(指后台各相关专业部门)、三线支持(指设备、系统的厂商及产品开发部门)。 2.2. 各部门职责 1、 合作城市运维部门 负责受理当地客户的故障申告 负责本地业务网络的运维 负责本地业务系统的硬件维护 负责配合运维中心完成故障的现场排查 技术应用部产品开发部传媒应用技术支持部IT 管理部厂商最终用户( IP TV/ DVB/ 时移)运维中心运维部其他二级部门二线支持一线支持三线支持现场支持 合做城市运维部技术应用部产品开发部传媒应用技术支持部管理部厂商最终用
6、户( 时移)运维中心运维部其他二级部门二线支持一线支持三线支持现场支持 合做城市运维部(所有上线产品的用户 ) 应用支持部 呼叫中心 其它故障受理渠道 第 7 页 共 32 页 2、 运维中心 负责 公司所有已移交 上线 运营的各产品及应用系统 的运 行监控 ( 7 24 小时) 负责割接调度、割接的对外通知和确认 负责 对 所有 上线运营系统的 故障统一受理,对故障进行测试、初步判断,对故障调度,跟踪故障处理情况,汇总处理结果,回复结果给故障投诉人,使故障处理形成闭环; 通过运行日报、周报、月报等形式向各个相关部门传递网络系统的运行状况 及故障处理情况 ; 3、 二线支持 二线支持部门主要包
7、括: 技术应用部、 IT 管理部、应用支持部、运维中心的各二级部门 及 其它后台支撑部门 或业务部门 。 运行管理:对系统和网络进行日常主动巡检、性能分析、优化改造 故障管理:负责所有一级支持部门 转交的网络故障投诉的处理,重大故障的分析 问题管理:以找到问题根源、提出解决方案,避免故障重复发生的机制,对问题在各个二线、三线支持部门的处理进行跟踪管理 技术支持: 对 公司各类业务相关 网络 和系统运行 中出现的热点难点问题 ,为其它部门 进行技术支援; 4、 三线支持 三 线支持部门主要包括: 产品开发部 、应用支持部 (自主开发的部分) 及 厂商 。 此层面包括设备、系统的最终技术支持层面
8、受理网络、系统运行过程的技术咨询及对一、二线支持提供培训 为产品使用方提供远程和现场技术支持 负责对网络、系统运行中的发现的,无法定位的问 题进行原因查明,并提供解第 8 页 共 32 页 决方案 2.3. 运营 支撑 各 层面 间的 分工 协作 1、 各部门的主要职责及分工 责任人、部门 主要职责 时间节点及要求 公司 分管 领导(何总、蔡总) 对 一级、二级 重要故障 的处理指导与监督 对 一 级重大故障的协调与督办 其它公司领导 了解并关注 一、二 级重要故障的处理进程及结果 运维中心 (网管中心) 负责公司所有已移交上线运营的各产品及应用系统的运行监控( 724 小时) 负责对所有上线
9、运营系统的故障统一受理,对故障进行测试、初步判断,对故障调度,跟踪故障处理情况,汇总处理结果,回复结果给故障投 诉人,使故障处理形成闭环; 通过运行日报、周报、月报等形式向各个相关部门传递网络系统的运行状况及故障处理情况 724 小时 值班 运维中心 (其它二级部门) 承担本规程所规定的本部门所负责系统、网络及设备的主动运维、故障处理及问题管理的职能 对本部门所负责运维保障的部分,与厂家对接对相关系统、网络及设备的故障及问题进行协调处理并全程跟踪和反馈结果 7 24 小时待命(指定专门接口人) 技术应用部 承担本规程所规定的本部门所负责系统、网络及设备的主动运维、故障处理及问题管理的职能 对本
10、部门所负责运维保障的部分 ,与厂家对接对相关系统、网络及设备的故障及问题进行协调处理并全程跟踪和反馈结果 7 24 小时待命(指定专门接口人) 应用支持 部 承担本规程所规定的本部门所负责系统、网络及设备的主动运维、故障处理及问题管理的职能 对本部门所负责运维保障的部分, 与厂家对接对相关系统、网络及设备的故障及问题进行协调处理并全程跟踪和反馈结果 7 24 小时待命(指定专门接口人) IT 管理部 承担本规程所规定的本部门所负责系统、网络及设备的主动运维、故障处理及问题管理的职能 对本部门所负责运维保障的部分,与厂家对接对相关系统、网络 及设备的故障及问题进行协调处理并全程跟踪和反馈结果 7
11、 24 小时待命(指定专门接口人) 产品开发部 承担本规程所规定的本部门所负责系统、网络及设备的主动运维、故障处理及问题管理的职能 与厂家对接对相关系统、网络及设备的故障及问题5 8 小时 (工作日)支持 (指定专门接口人) ,在第 9 页 共 32 页 责任人、部门 主要职责 时间节点及要求 进行协调处理并全程跟踪和反馈结果 测试期未移交运维的应提供 724 小时待命(指定专门接口人) 其它相关部门 提供工作日 5 8 小时的工作支持(指定专门的接口人) 配合技术部门解决相关故障 厂商 对公司无法解决的故障应提供 7 24 小时 的及时、到位的技术支持(包括工作日的所有故障及节假日期间的重大
12、故障 ) 对重要故障及长期未解决故障提供专项分析及解决方案并协助公司技术部门彻底解决 7 24 小时待命(指定专门接口人) 2、 部门间 协作关系图 技术应用部产品开发部传媒应用技术支持部IT 管理部厂商最终用户( IP TV/ DVB/ 时移等)运维中心运维部其他二级部门二线支持一线支持三线支持现场支持 合作城市运维部I PT V 、时移、 IP 骨干网络故障线路提供商技术应用部产品开发部传媒应用技术支持部管理部厂商最终用户( 时移等)运维中心运维部其他二级部门二线支持一线支持三线支持现场支持 合作城市运维部、时移、 骨干网络故障线路提供商3. 主动运维 管理规范 3.1. 主动运维 的概念
13、 “ 运维就是服务 ” , 运维未来的发展趋势势必是由被动维护转变为主动服务。与之相对应, 运行 维护工作的对象也从面向网络、 系统、 网元转变为面向用户,由面向设备维护转变为面向外部和内部客户服务。 本管理办法中 所提出的“主动运维”的概念即是从此理念出发,通过在 公司建(所有上线产品的用户 ) 所有产品 应用支持部 呼叫中心 其它故障受理渠道 第 10 页 共 32 页 立和完善相关的预先检查、预先发现及处理以及编制完善的各类应急预案等,来达到把故障和问题的萌芽消除在其发生之前,从而减少或避免故障的发生, 这不仅使用户服务的质量更加精细化,而且能够有效地 降低和 节约建设 维护 成本 ,为
14、公司业务的发展和稳定运营 服务 提供强有力的保障。 3.2. 建立 预检 、巡 检 及预警 机制 1、 预检和巡检 各运行维护保障部门,尤其是运维中心、 IT 管理部、技术应用部等直接负责关键系统运维的部门,要建立完善的预检及巡检制度, 明确预检和巡检的责任人、时间要求、检查内容要求、检查流程、检查记录及发现问题的汇报和通报 机制等。 对预检 及巡检中应该发现的问题由于检查人员的疏忽没有得到及时发现,后续发生相关故障并给公司造成损失的,应对相关责任人进行事后追究及处罚(具体体现在对责任部门及责任人的考核及奖惩中)。 2、 预警 机制 检查人员 对预检 和巡检中发现的问题,要进行及时的分析和预处
15、理,并及时通报本部门相关人员、各相关部门,情况严重时要及时通报给公司分管领导及其他公司领导。 对检查中发现的问题,发起部门要及时跟进问题的处理结果和进度,确保问题得到有效的处理 及反馈,并最终形成问题解决的闭环(具体参见故障管理和问题管理部分 )。 3.3. 建 立和完善故障处理预案 制度 为减少或避免同类或类似问题再次出现或多次发生,各运维部门应建立并逐步完善故障处理预案制度 , 对重要的故障及可能多次出现的故障根据前期的处理情况制定完整的处理预案,并对相关运维人员进行培训和传达,以确保在主动运维及故障发生后的第一时间根据处理预案进行及时、有效的故障分析和排除。 故障处理预案可根据故障等级、故障性质及故障类别等进行分类和保存,以方