1、 CNNIC 自有运维监控 平台 规划 文件状态 草稿 报审稿 正式发布 文件标识 当前版本 V1.0 作者 CNNIC 运行管理中心 -工程部 -应用服务组 使用范围 创建日期 2011-09 生效日期 CNNIC 自有运维监控系统规划 1 / 27 目 录 1. 规划背景 . 3 1.1 关于运维监控系统 . 3 1.2 实施 CNNIC 自有运维监控平台的必要性与可行性 . 3 1.3 现有监控系统分析 . 4 1.4 设备与服务监控系统( SOS2) . 4 1.4.1 SOS2 . 4 1.4.2 开源网络流量监测图形分析系统( MRTG/CACTI) . 6 2. CNNIC 应用
2、运维体系规划 . 8 2.1 规划概述 . 8 2.2 应用运维体系四个组成部分 . 8 2.2.1 CNNIC 服务级别管理 . 8 2.2.2 CNNIC 应用运维管理 . 9 2.2.3 CNNIC 自有运维监控平台 . 9 2.2.4 CNNIC 运维数据分析 . 9 3. CNNIC 自有运维监控平台方案 . 10 3.1 建设目标 . 10 3.2 设计原则 . 10 3.3 平台架构 . 11 3.4 监控系统设计 . 12 3.4.1逻辑拓扑 . 12 3.4.2物理拓扑 . 13 3.4.3系统特色 . 14 3.4.4系统功能 . 14 3.4.4.1 用户管理 . 14
3、3.4.4.2 设备层监控 . 14 3.4.4.3 网络层监控 . 14 3.4.4.4 服务层监控 . 15 3.4.4.5 业务层监控 . 15 3.4.4.6 问题告警与自动化处理 . 15 3.4.4.7 业务与数据流的图形化展现 . 16 3.4.5性能与兼容性 . 16 3.4.5.1 性能要求 . 16 3.4.5.2 兼容性要求 . 16 3.4.6系统安全 . 17 3.4.6.1 架构安全 . 17 3.4.6.2 软件安全 . 17 3.4.7监控测试原型系统 . 18 CNNIC 自有运维监控系统规划 2 / 27 3.5 知识库设计 . 21 3.6 配置管理数据库
4、( CMDB)设 计 . 21 3.7 实施阶段及资源需求 . 21 3.10.1 项目实施推进时间计划 . 21 3.10.2 项目实施人力资源需求 . 21 3.10.3 项目实施硬件资源需求 . 22 参考文献 . 23 附录一:开源网络监控和管理软件对照比较表 . 24 附录二:主要监控项设计及比较 . 26 CNNIC 自有运维监控系统规划 3 / 27 1. 规划背景 1.1 关于运维监控系统 监控是系统与服务运维的基础和核心。依靠监控系统能够实时准确地反映出系统与服务的运行状况,快速监测出在业务运营各环节出现的故障,使运维人员快速定位问题、隔离故障点并进行修复,从而保障业务 的
5、连续性与可用性,奠定IT 系统运维管理的基础。 1.2 实施 CNNIC 自有运维监控 平台 的必要性与可行性 2005 年,为了保证线上域名相关服务运行的稳定性、可靠性和可管理性,CNNIC 开始建设运维监控 平台 SOS2( Service Operation Supporting System) 。该平台 以 NetGain Enterprise Manager1系统为核心建设,同时提供针对日常运维工作涉及到的诸如排班管理、文档管理、配置管理、 IP 管理等功能。 2009 年在原有系统基础上进行功能改进和 性能 提升, 通过 对系统监控项进行合并及优化, 达到了 降低虚警率 和 提升用
6、户体验 的目的 。 目前, SOS2 覆盖了 CNNIC 所有硬件设备与软件服务的监控,其规模 已十分 庞大。 近年来, CNNIC 业务 不断发展 ,同时 业内相关 技术 也在不断进步 , 从而促使 CNNIC 运维团队的管理与技术水平也在不断提升。 我们 的运维技术在不断满足自身需要的同时,也在不断谋求发展与突破,从而实现自主技术与产品的输出战略。 CNNIC 肩负 的国家使命要求我们在核心运维技术 不能长期依赖第三方厂商,而 必须 进行 自主研发和建设,因此围绕自有运维监控系统进行自有运维平台的建设 是迈向 CNNIC 自有运维技术与产品输出的第一步,并 且 有利于进一步提高 CNNIC
7、 自有运维服务水平和自主研发实力。 经过调研,我们发现基于开源监控系统进行 CNNIC 自有运维监控 平台 的建设是最为可行一种方式,并且能够与现 存 开源网络监测系统进行融合统一。因此,可以在借鉴现有 SOS2 系统各种优点的基础上,充分利用开源产品的开源与可定制优势,建设好 CNNIC 自有运维监控 平台 。 CNNIC 自有运维监控 平台 的建设既有利于提高 CNNIC 自有运维服务水平和自主研发实力,也同样有利于 SOS2 监控系统的改进和提升,从而 改变我们单独依赖于第三方产品进行核心运维的局面,达到 CNNIC 运维监控两条腿走路,两手都要硬的目的。 CNNIC 自有运维监控系统规
8、划 4 / 27 1.3 现有监控系统分析 CNNIC 现有监控平台主要采用基于 NetGain Enterprise Manager 的监控系统进行系统及服务监控,同时使用 MRTG2及 Cacti3两个开源 网络 监测 系统进行设备 与 服务流量监测。 1.4 设备与服务监控系统( SOS2) 1.4.1 SOS2 1.4.1.1 SOS2 系统架构 图 1-1. SOS2 服务监控代理拓扑图 从图 1-1 中可以看到,应用层探测服务器 使用 的 IP 地址有 : 218.241.99.57、218.241.99.58、 159.226.7.175、 218.241.98.12( 10.1
9、0.1.12 用于 顶级节点探测)、CNNIC 自有运维监控系统规划 5 / 27 159.226.202.110(数据库探测);灾备中心 服务器使用 的 IP 地址有: 218.241.112.63、218.241.112.64。其中: 服务器 218.241.99.57:用于 CN 域名注册、中文域名注册服务、 whoisd服务、 whoisweb 服务内部地址探测,内部页面 www 等监控,语言环境变量 LANG=en_US.UTF-8; 服务器 218.241.99.58:用于 whoisd 服务、 whoisweb 服务内部地址探测,内部页面 www 等监控,语言环境变量 LANG=
10、zh_CN.gb2312; 服务器 159.226.7.175:用于旧版本文档系统、设备管理系统、值班系统等,提供 whoisd 服务、 whoisweb 服务内部地址探测,内部页面 www 等监控,语言环 境变量 LANG=zh_CN.GB18030; 注: 这三台服务器作用一样,仅在环境变量上有所区别,目前218.241.99.57 负载较高,建议往 218.241.99.58 上部署监控 服务器 159.226.202.110:仅用于数据库服务器逻辑监控; 服务器 218.241.98.12( 10.10.1.12):用于顶级节点 DNS 访问量监控和顶级节点 FTP 服务监控 。 需要
11、说明的是,剩下的两台服务器 159.226.202.11 和 159.226.202.16 主要是模拟外网用户对 CNNIC 服务对外提供地址进行探测,用于虚地址探测 。 1.4.1.2 SOS2 系统规模 表 1-1. SOS2 监控机及服务规模表 ( 统计日期截至 2011 年 11 月) 监控机器数量(节点) 监控服务数量(服务项) 595 5171 1.4.1.3 SOS2 主要监控项 表 1-2. SOS2 监控项列表 主动监控项 被动监控项 FTP 服务 HTTP/HTTPS 服务 SNMP(内存、 CPU、端口、磁盘空间) Agent( WWW 主页, SOA比较、系统进程、MD
12、5 检查、 ZONE 比较、 DNS 访问统计、注册、重点域名、 Whois) 1.4.1.4 SOS2 优势与不足 CNNIC 自有运维监控系统规划 6 / 27 表 1-3. SOS2 优势与不足对照表 优势 不足 监 控节点部署简单 vs 监控节点的扩容及部署受厂商限制 厂商负责技术支持与升级 vs 过渡依赖厂商,维保价格昂贵(到目前为止投入约 150W) 持续在 SOS2 上进行投入保证了CNNIC 运维业务连续性 vs 由于历史沿袭、业务变更以及 SOS2管理员管理方式不同,造成系统监控目录结构混乱复杂 SOS2 系统权限过大,远程过程调用功能极大方便了系统管理 vs SOS2 主机
13、具有所有被监控机的 root权限,一旦被入侵后果十分严重 监控通信格式及监控数据被加密,保证了数据安全性 vs 数据不具有开放性,无法进行二次开发 监控功能之外, SOS2 还提供值班管理、文档管理、设备管理、报表等其它运维相关功能 从多个层次对服务进行的监控未以服务 /业务为主线进行关联,由此导致不能实现告警压制 由于 SOS2 展现格式的问题(流量显示用 Byte),其自身的流量监控的功能并未使用 1.4.2 开源网络流量监测图形分析系统( MRTG/CACTI) 在网络流量监测图形分析方面, CNNIC 目前一直在使用开源的 MRTG( Multi Router Traffic Grap
14、her)与 Cacti 进行对路由器、交换机及负载均衡设备的流量与连接数进行监测。 具体监控项如下表所示: 表 1-4. CACTI/MRTG 监控项列表 监控类别 监控设备 监控项 CNNIC 自有运维监控系统规划 7 / 27 网络 路由器 出口路由器至 NOC、电信、北京联通流量; 至 NOC 的静态链路流量; 交换机至成都专线的流量; 成都灾备中心出口路由流量; 2,4,5,6,7,8,9,10 分节点流量 网络 交换机 办公网段流量; 测试网段流量; 服务 负载均衡设备 Cn域名国内 /国外注册连接数、流量 中文域名国内 /国外注册连接数、流量 Cn域名 whoisd/web 连接数
15、、流量 中文域名 whoisd/web 连接数、流量 通用网址注册连接数、流量 通用网址 Whoisd/web 连接数、流量 无线网址注册连接数、流量 无线网址 Whoisd/web 连接数、流量 注 : 1 NetGain Enterprise Manager(简称: EM),是 NetGain Systems 所研发的一款即插即用的硬件 IT 架构监测管理设备。 2 Multi Router Traffic Grapher - MRTG 是一个监控网络链路流量负载的工具软件,通过snmp 协议得到设备的流量信息 , 并将流量负载以包含 PNG 格式的图形的 HTML 文档方式显示给用户,以
16、非常直观的形式显示流量负载。 3 Cacti是一套基于 PHP、 MySQL、 SNMP及 RRDTool开发的网络流量监测图形分析工具。 CNNIC 自有运维监控系统规划 8 / 27 2. CNNIC 应用运维体系规划 2.1 规划概述 CNNIC 应用运维体系是指服务从 研发 设计到投入运行 生产 及持续改进的一个周而复始的自我完善过程。在这个体系中, CNNIC 自有运维监控 平台 的建设是其核心组成部分。 图 2-1. CNNIC 自有运维体系结构图 上图中的服务设计、服务导入、服务运维、持续改进四个过程,实质上就是对服务进行计划( Plan)、实施( Do)、监测( Check)、
17、分析( Analyse)的四个过程,这四个过程都与监控 平台 紧密相关。 2.2 应用运维体系四个组成部分 2.2.1 CNNIC 服务级别管理 服务级别管理体系的目的是对 IT 服务质量的评估、量化与改进 , 以试图在服务质量的供应与需求、用户关系和 IT 服务成本之间找到合适的平衡点,从而弥合 IT 与业务部门的分歧并确保 IT 服务高效和有序运营。 因为 服务级别管理的资产与配置管理 发布与部署管理 变更管理 自有运维监控平台 可用性管理 问题管理 服务级别管理 监控数据分析 性能数据分析 日志数据分析 持续改进 服务设计 服务导入 服务运维 CNNIC 自有运维监控系统规划 9 / 2
18、7 目标是确保提供给用户所有议定的服务水平 , 所以服务的状态需要通过自 有 运维监控平台进行实时状态检测,以验证是否达到 级别 协议规定的服务水平。 有关 CNNIC 服务级别管理体系 , 详见 CNNIC 服务级别管理( SLM)体系规划 。 2.2.2 CNNIC 应用运维 管理 应用运维管理 的 目的是使研发部门开发好的 系统或 服务顺利部署到正式环境, 投入 交付使用, 以及使系统的运维 工作 平滑地过渡到运行团队。 该管理体系主要包括资产与配置管理、服务发布与部署管理以及变更管理几个流程。 而自 有运维监控 平台 在该体系中发挥的作用就是做到及时检测服务运行状态,准确地反映系统运行
19、过程中的各种问题,并 完整地记录 系统 运行中的各种 运维 数据, 为系统运行的优化提供决策依据 。 有关 CNNIC 应用运维 管理 ,详见 CNNIC 应用运维 体系规划。 2.2.3 CNNIC 自有运维监控平台 自有运维监控平台就是本文所规划的重点,其方案详见 本文 “第 3章 CNNIC自有运维监控平台 方案 ”。 2.2.4 CNNIC 运维数据分析 运维数据分析包括服务监测数据分析、网络日志分析、服务日志分析等方面,通过进行运维数据分析,可以从性能、安全等方面充分了解服务的运行情况,为服务级别管理、服务性能管理、容量管理、问题管理等流程提供丰富详尽的数据证据。 CNNIC运维数据分析的工作是以 CNNIC自有 运维监控平台采集的数据为基础,结合 CNNIC 现有业务和运维需求,对数据进行深层挖掘、过滤、重组和 友好展示 ,为 CNNIC 运维月报、年报和 SLA 等报告提供 有效地 数据支撑,同时也为 CNNIC 后续的业务优化和改进提供科学依据。 CNNIC 运维数据分析是整个 CNNIC 应用运维体系的一个重要组成部分,是我们下一个阶段需要重点努力和突破的方向,已经将其列为 2012 年上半年的工作规划之中。