1、电网企业信息运维模式探讨 摘要 随着企业信息化深化,很多电网企业业务已经高度依赖网络与信息系统安全、稳定运行。企业在信息化建设初期建立的信息运维模式,已经不能满足业务对信息化运行质量要求。电网企业需要探索新的信息运维模式,走出当前信息运维困境。 关键词 电网企业;信息运维;模式 经过多年信息化建设,很多电网企业已在市场、生产、财务、人力资源等领域建立了业务处理系统,实现主营业务、日常办公信息化。企业运作越来越依赖于网络与信息系统的安全、稳定运行。信息部门运维工作压力陡增,运维人员加班加点已经成了工作常态,而管理层、用户仍常常抱怨问题得不到及时处理。如何走出当前信息运维困境,建立高效的信息运维管
2、理模式,保障企业网络与信息系统安全、稳定运行,是电网企业亟待解决的问题。 一、电网企业信息运维工作现状 1、被动 “ 救火 ” 式运维,网络与信息系统运行质量难保障。 电网企业信息化都经历从无到有、从小到大的过程,很多企业在信息化建设初期仅有数台服务器、网络设备,设备故障、停运对企业日常运作影响甚微。信息运维采用运作简单的事后 “ 救火 ” 模式,运维人员象消防队员一样,哪里出现故障了就去哪里处理。这种模式和较小的系统规模相适应,满足当时企业对网络与信息系统运行质量要求。随着信息化建设深化,企业网络与信息系统规模变得庞大,结构也日益复杂。例如某市级电网企业,经过 10多年信息化建设,数据网络覆
3、盖了的 44个远程办公、生产场所,运行的应用系统达 30个,服务器 94台,网络设备、安全设 备 150台,桌面终端达到了 700多台。随着网络与信息系统规模扩大,缺陷、故障频度不断增加。企业业务高度依赖网络与信息系统支撑,系统、设备故障将对业务运作造成严重影响,企业允许的缺陷、故障处理时限越来越短。 “ 救火 ”式运维模式弊端逐渐显露。信息运维人员整天在故障中奔波,忙于事后“ 救火 ” ,网络与信息系统运行质量难保障。 2、监控手段落后,运行监控力不从心。 随着信息化深化,电网企业信息化设备数量迅速增长,网络、终端设备广泛分布于营业区内办公、生产场所。例如某电网企业运行约 300台的服务器和
4、基础 设施设备、 700 多台办公 PC,设备分布在 40 多个生产、办公场所。企业配备 8名信息专业技术人员,依靠人工监控设备运行状况已经力不从心,值班巡视走马观花,定期巡检不到位,对于分布在数十个远程生产、办公场所的设备更是无法定期巡视。依靠人工管理数百台 PC,有了问题才事后“ 救火 ” ,遇到大面积病毒感染处理、安全漏洞修补和软件部署等工作,很难按时完成。 3、手工作坊式管理,运维质量在低水平上徘徊。 很多电网企业信息运维仍采用手工作坊管理模式,运维人员按系统分片“ 包干 ” 运维工作。没有统一的服务级别定义、 质量标准、工作标准和工作表单,运维人员需凭自身经验开展工作,运维质量取决于
5、个人的技术水平、经验。只有个别技术水平高、实践经验丰富的老员工能较好开展运维工作,大多数运维人员由于技术能力一般或缺乏足够的经验积累,运维工作质量、效率比较低。没有流程化的故障处理机制,缺乏对运维工作的统一调度和监控,出现了诸多不合理现象,例如:重要故障压在某个人手里面得不到处理,同时很多人力却消耗在次要工作上;技术能力强的人员做没有技术难度的日常维护工作,同时技术能力低的人员却在处理高难度的技术故障,迟迟不能解决问题。手工作坊式管理 ,也导致运维数据缺乏,不能对系统运行及运维工作进行分析,给持续运维改进造成困难。 二、电网企业信息运维模式探讨 1、注重风险管控,运维工作重心从事后 “ 救火
6、” 向到事前 “ 预防 ” 转移。 运维工作重心从事后 “ 救火 ” 向事前 “ 预防 ” 转移,加强运行监视,日常开展风险分析和风险管控,将风险由 “ 可控 ” 变成 “ 在控 ” ,预防故障发生,保障网络与信息系统安全稳定运行: ( 1)明确值班、定期巡检项目和工作质量要求,形成工作标准,规范值班巡检、定期巡检,并定期检查、考核,强化运行监视和预防性维护工 作。 ( 2)将风险管控常态化,日常开展基于问题的风险评估,编制控制措施,及早控制风险;设立专人跟踪问题处理情况,确保风险控制措施落到实处。 ( 3)定期开展作业风、设备基准风险评估,有的放矢开展信息安全加固,持续提高信息安全防护水平。
7、 ( 4)完善应急预案,开展应急培训、应急演练,做好日常应急管理,确保在发生紧急情况时能有效控制事态发展,减少损失。 2、提高监控自动化程度,提高工作效率。 利用自动化监控系统 7*24 小时监控设备运行工况,例如,建设 IT 设备监控系统 ,对网络设备、服务器和存储设备集中监控,建设机房环境监控系统,对机房环境设施集中监控,建设桌面管理系统对桌面办公电脑集中监控,借助监控系统的汇总、统计和事件报警功能迅速发现设备异常、故障,提高运维监控效率。也可利用桌面管理系统快速大面积部署安全策略、软件,开展远程维护,提高桌面办公电脑维护效率。 3、运维业务流程化、标准化,让一般员工干出不一般的成绩。 大
8、多数人都不能成为 “ 精英 ” 。随着网络与信息系统规模的扩大,过去那种仅靠凤毛麟角的 “ 精英 ” 完成运维工作已经行不通。如何组织能力一般的运维人 员高效、高质量开展运维,是企业信息部门要解决的问题。这可借鉴制造业的流水线,将只有 “ 精英 ” 才能包揽做好的运维业务分解成包含多个步骤的业务流程,每一位员工只负责其中特定步骤,降低运维人员能力要求, “ 精英 ” 则专注于高难度业务步骤,更合理运用人力资源,提高运维工作效率。建立运维工作标准,在工作标准上沉淀员工个人经验,用工作标准规范、指导各业务步骤操作,让没有经验、技术水平一般的运维人员也能高质量工作。通过运维工作标准化规范运维记录,积
9、累运维数据,定期进行分析,发现问题,研究解决办法,持续改善运维工作,不断提高运维 水平。 三、结束语 经过多年信息化建设,电网企业业务与信息化更加紧密融合,信息化设施已经成为企业业务不可或缺组件。企业网络与信息系统规模、复杂度、重要性远非信息化建设初期可比。信息运维工作难度增加和系统允许异常、中断时间减小之间的矛盾,让电网企业信息运维工作面临困境。通过运维模式创新,提高信息运维工作效率,可以帮助电网企业超越上述矛盾限制,保障网络与信息系统安全、稳定运行,支撑企业业务正常运作。 参考文献 中国南方电网有限责任公司 .安全生产风险管理体系 .中国标准出版社 ,2012. GB/T 209842007 信息安全技术 信息安全风险评估规范 左天祖,刘伟 .中国 IT 服务管理指南 .北京大学出版社, 2008.