1、运维管理部运维制度规范为了规范公司运维管理部各项工作,使得相关工作具有持续改善性及相互协作性,同时加强计算机设备的合理管理及日常维护,明确部门的职能职责和管理流程,提高工作效率,实现业务与技术的融合,现特制定统一的规范及标准,统一的系统管理维护流程以及信息安全管理的目的与责任等。根据公司技术体系以及运维工作的需要,由运维管理部制定本管理制度,并负责本管理制度的具体执行。第一章 网络管理1.1 公司内部的网络资源分配、组网策略及访问权限由运维管理部进行统一规划。1.2 网络地址、网络路由、访问控制等按照运维管理部的规范进行分配、设置、管理和维护,不得随意变更。1.3 相关责任人必须记录保存完整的
2、网络拓扑结构、网络设置、网络变更以及网络连接的配置等描述性文件,应对各种网络设备的设置或设置文件进行定期备份、网络连接必须进行标识、以提高网络系统的可维护性。1.4 必须定时对已有的网络设备进行巡检,分析错误日志、网络流量信息等,以保证网络系统的安全、稳定、高效的运行。1.5 网络通信故障或网络设备故障要及时申报处理,力争在最短的时间内恢复通信服务。第二章 服务器管理2.1 对服务器系统扫描,及时关闭可疑端口和服务,经常查看服务器运行的日志,检查服务器系统资源的使用情况(硬盘、内存、CPU 等) ,发现服务器运行情况异常及时记录。2.2 管理员对服务器的管理员账户与口令严格保密、定期修改、以保
3、证系统安全,防止对系统的非法入侵。2.3 对服务器的数据实施严格的安全和保密处理,防止系统数据泄露、丢失和损坏。2.4 不得随意在服务器上安装新的软件程序,如必须,需要进行安装前的病毒安全检测。2.5 及时关注 IT 安全网站的病毒防治情况与提示,进行服务器安全参数的调整,避免服务器非法攻击。2.6 在服务器部署实施之前进行上传文件的病毒检测工作,发现病毒及时的处理,保证服务服务器的运行环境安全。2.7 对软件系统进行升级、更新补丁,或进行系统的程序重新安装,需要对重要数据进行备份处理。2.8 及时的处理服务器软硬件运行的错误信息,对所有工作中出现的大小故障均要做详细的记录,包括详细的故障时间
4、,故障现象,处理方法和结果并将相关的错误信息进行记录以便进行问题的定位。第三章 备份管理3.1 服务器的数据必须进行备份操作,定期(每日或周)做好日志文件的备份工作,服务器内的重要数据做好不同介质的备份,确保系统故障第一时间进行快速数据恢复。3.2 对备份服务器的备份日志文件进行检查,如备份不完全或失败,及时的进行重新备份。3.3 建立完善的备份机制,对于重要的数据除了存储在服务器内部以外进行其他介质备份或异地灾备。第四章 监控管理4.1 建立完善的监控机制,结合现有的监控工具以及开源的监控工具进行有效的 7*24 监控,包括系统服务器的资源,性能,可用性,保证系统的正常稳定的运行。4.2 及
5、时发现问题并处理问题,对于问题进行详细的记录,第一时间处理突发问题,保证系统的稳定和可用性。第五章 故障处理5.1 应急故障预警:预警级别 警报内容 预警级别介绍一级预警网络流量升高系统资源升高数据备份出现异常热备份出现异常监控软件出现故障一级预警表示系统出现故障,但不影响运维系统的正常运转。二级预警超过系统资源超过网络资源网络中断或网络异常防御资源内的攻击操作系统出现异常应用系统出现异常数据库相关异常二级预警表示系统出现故障,影响运维系统的正常运转,但运维工程师可以在短时间内进行故障排除。三级预警超过防御资源的攻击硬件物理损坏操作系统出现不可恢复性故障数据库无法正常使用三级预警表示系统出现故
6、障,影响运维系统的正常运转,运维工程师不能在短时间内进行故障排除。四级预警ISP IDC 机房故障受到不可抗力或自然灾害的破坏。四级预警表示系统出现故障,运维系统中断,运维工程师无法排除。5.2 故障预警处理运维过程中出现重要故障或紧急情况时,按以下规定流程进行处理及汇报。在遇到故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下:一级预警1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析故障原因。2.运维工程师在排查出故障后,立即着手解决。3.在故障排除后,通知上级领导并对所发生故障的设备进行事后跟踪。4.在故障排除后,运维工程师应对故障原因及解决办法进行详细
7、说明。二级预警1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析故障原因。2.运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要相关技术人员到现场,应立即拨打技术工程师联系电话,请求立即到现场进行故障排除。3.立即报告上层领导,主管人员应通过电话或当面把故障报告给相关技术部门。4.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。三级预警1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析故障原因。2.运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要相关技 术人员到现场,应立即拨打技术工程师或第三方技术部门联系电话,请求立即协调 进行故障排除。3.立即报告给运维主管人员,主管人员应通过电话或当面把故障报告给相关领导部门,在故障完全排查清楚后以书面形式递交“故障报告单” 。4.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。四级预警1.当通过监控或得知系统出现故障时,重复分析并确认故障原因。2.立即报告给运维主管人员,主管人员应通过电话或当面把故障报告给主管领导。3.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。