常见故障监控方法浅谈CRM受理服务拨测CRM2.2在2012年7月份,在XX省完成了所有本地网的割接上线,自那时起,做为负责服务保障的我,就在头顶上悬了一把剑,首先让我们看看这把剑有多锋利。一,运营的困难1, 服务节点太多:上线之初,CRM2.2受理共有前台服务 200个,后台服务100个(经过调整和XX市并网,现在前台服务182个,后台服务91个);这些服务如果靠人工来拨测,首先是工作量大,200个服务检查完,需求一个小时左右;并且意义不大,因为服务的状态是动态的,刚刚检查完的下一秒,服务可能就变成异常。2, 影响面大:CRM2.2是电信的核心业务功能,如果某个本地网的服务出现异常,就会导致大面积故障,影响客户的感知。3, 其它系统监控的压力:电信另一个厂家的拨测产品对CRM2.2的服务也有监控,但问题是那个监控结果不准;当时服务台常常把它的拨测结果,不加验证,直接贴到QQ群里,客户从上到下都很关注。我们必须被动受接收这些异常点,逐个验证,并公布验证结果。被困难唬住就不是我们,生活不是强奸,我更不会躺在那任它蹂躏。我们的目标很明确,准确快速地发现异常