1、BTSO 运维管理系统项目试运行报告建设单位:黑龙江科技发展有限公司2017 年 3 月 1 日系统试运行报告1BTSO 智能运维系统作为 2017 年管理部信息化建设的重要组成部分,为信息化设备的科学管理提供了可靠的技术保障。公司服务器工作年限大多超过五年,运行已出现老化现象。网络设备分散在公司各个位置,人为监控运行状态难度较大。数据库出现故障无法提前预警,查找故障点难度较大。智能运维系统上线主要目的,就是为了减少故障处理时间,加强软硬件系统监管,提高工作效率。1 系统试运行的平台及网络环境1.1 系统硬件平台系统部署的服务器型号:IBM x3650-m3,配置:3 颗至强 4 核 CPU,
2、内存为 32G ,配备 2 网卡,RAID 5+1 热备,硬盘 300G*71.2 系统软件平台 管理平台服务器、WEB 发布服务器、数据库都整合在一台实体服务器中。实体服务器端操作系统为 VMware 5.5.0,BTSO 运维管理平台运行在操作系统 VMware 下的 Microsoft Windows Server 2008 虚拟机中,数据库采用北塔 PgSQL。 客户端采用 Google Chrome 54.0 浏览器以上版本,建议设置为1920*1080 分辨率。系统试运行报告21.3 系统网络环境 服务器主板集成 2 个 10/100/1000M 以太网卡,使用其中 1 个以太网卡
3、,IP 地址设置为:10.1.7.104/21 系统采用了 B/S 架构,通过虚拟机网址 (http:/10.1.7.100)进行登录。客户端登陆需要输入用户名密码,帐号和密码由系统平台管理员分配。 系统登录页面如下图:系统试运行报告32 系统概要说明2.1 系统主要模块BTSO 北塔智慧运维平台包含 9 大模块类型:系统平台、告警时间管理、运维数据输出、报表管理、机房管理、拓扑管理、系统类管理、网络类管理、存储设备管理等,每个模块类型下辖若干模块,共计20 个模块。系统试运行报告42.2 系统权限系统权限灵活分配,不同的岗位按照需求可以设置不同的操作权限,现已发放操作员账号 8 个。3.系统
4、试运行的工作时间安排3.1 培训阶段2017 年 1 月 13 日,北塔工程师主持,进行了 BTSO 智能运维系统相关操作人员的培训。3.2 基本数据输入2017 年 1 月 9 日2017 年 1 月 12 日搭建 BTSO 智能运维系统运行平台,进行数据库挂接,创建网络结构框架,服务器拓扑,分配各操作员账号。1 月 13 日进入试运行阶段,试运行期为 3 个月。系统试运行报告54 系统试运行的规模目前系统监测对象 83 个。分别为:交换机 46 台、服务器 21 台、虚拟服务器 1 台、光纤交换机 2 台、防火墙 1 台、上网行为 1 台、存储服务器 1 台、SQL 数据库实例 3 个、O
5、racle 数据库实例 7 个。另有 UPS 逆变器 2 台、温湿度传感器 1 台,需要停机检修期间进行安装,ghS 防火墙由于不在局域网网段内暂时无法监控。5 系统试运行对提高工作效率的作用分析通过对目前的系统试运行结果来看,此系统能很好的监控局域网中的各种主要信息化设备、数据库的运行状况和健康信息。在加强公司信息化设备管理的同时,也大大提高了对信息化设备、数据库故障判断的速度。另一方面,系统智能巡检比之前的手工巡检即缩短了时间,又提高了数据的准确性。智能巡检功能 24 小时不停的进行巡检,如被监控设备、数据库出现异常,系统可以及时提醒,并指明发现异常的指标名称,便于维护人员排除异常,缩短问
6、题的处理时间,提高解决问题的工作效率。6 系统试运行的影响分析由于此系统设计为 B/S 架构,所有局域网计算机都可以登陆系统平台进行查看,所以不会限制维护人员所在位置。系统内置运行率报表、故障分析报表、性能分析报表等,针对网络设备健康状态系统试运行报告6进行统计,便于维护人员判断网络设备是否良性运转。网络设备拓扑功能,能够生成办公网络拓扑图,并将介入层以上的设备以及链路以列表、图形等表现形式展现。图形中链路的颜色代表线路的性能变化,并通过其线路信息查看线路总流量、线路帧流量以及带宽利用率等信息。如发现异常数值,通过查询上下级交换机的链路信息表,可以找到产生异常数值的交换机端口,通过线号端口表最
7、终找到产生异常终端的准确位置,便于查找异常原因。此项功能可快速查找广播风暴产生的源头,有利于网络的稳定运行。对于服务器、网络存储、光纤交换机等设备的监控则深入硬件底层:CPU、内存、硬盘、磁盘 IO 性能、光纤接口、网卡、RAID 卡、LUN、RG 使用率、风扇转速、供电模块等信息都进行了监控。在日常的维护中服务器、网络存储等设备如出现告警信息,其告警指标可与历史指标进行对比,判断其告警信息是否准确。对于性能指标产生异常数值的设备也会有告警信息,通过这种告警信息,完全可以提醒操作人员及时维护相应设备,降低运行风险,起到预警的作用。对于数据库的监控,主要监控指标:数据库服务运行状态、表空间使用情
8、况监测、数据库用户使用情况、SGA 大小及使用率、SQL语句性能消耗查阅、数据库 ALTER 日志报错、数据库是否有锁(行级锁数、表级锁数、死锁数、锁等待数、阻塞锁数)、相关进程持续时间、归档模式、数据缓存命中率、共享池缓存命中率、内存占用比率、重做日志缓存命中率、用户表空间昨日增长量等,监控指系统试运行报告7标数值一旦超出阈值设置范围,系统可及时告警,提醒操作人员进行维护,防止数据库产生异常。通过 BTSO 运维系统的监控预警功能,可以快速查找故障源,减少解决故障的时间。信息化系统故障解决时间越少,对公司整体生产运营的影响就会越小,事实上是间接提高了整个公司的运转效率。7 系统试运行过程7.1 试运行过程该系统自 1 月 13 日开始试运行。自运行之初,我们按照设计要求,逐项进行演示,并把实际看到的功能与技术协议书进行对比。在试运行阶段我们着重在以下几个方面进行了检查:.1、 网络的运行率,检查方式为查看网络设备运行率报表 、网络线路连通率报表 。系统试运行报告82、 网络线路和设备的负载情况,检查方式为查看网络线路负载分析报表 、 网络设备负载分析报表 。系统试运行报告93、 网络告警信息统计,检查方式为查看网络告警统计分析。