1、1网络故障诊断和性能分析摘 要:随着数据处理的集中程度越来越高,网络和网络所提供的信息服务的重要性日益凸现。网络特别是骨干网络出现故障导致网络性能的下降或网络服务的中断对业务正常运作的影响是巨大的,网络的稳定良性运转直接关系到业务的安全生产。因此,如何快速发现网络故障、找到网络瓶颈、提升网络性能、提供工作效率是所有网络维护管理人员必须面临的棘手问题。本文就此问题作出具体阐述。 关键词:网络故障诊断;性能分析;设备;方法 中图分类号:TN711 文献标识码: A 文章编号: 1 网络故障诊断和性能分析 从目前来看,传统的网络故障诊断和性能分析有以下几种方法,他们有各自的特点。 1.1 置换法 置
2、换法简单且不需要专业的设备,但需要耗费大量的时间。这种方法从很大程度上来说是“治标不治本” ,没有从根本上找到网络故障的原因。同时该方法对间歇的网络故障完全无能为力 1.2 设备监控和日志 通过设备监控和查看日志来解决网络故障不需要额外的投资,一般可通过网络设备自带或配套的管理软件实现。该方法操作相对不算复杂,但需要使用人员对设备的相关配置和技术参数以及网络拓扑结构非常熟2悉,能够从海量的信息中找到需要的数据。时间上的花销也较大 1.3 使用网络测试仪 网络测试仪的使用相对复杂,但它能对网络的情况做比较全面和完整的分析。不过想要非常准确的定位网络故障,提升网络性能需要网络测试仪使用人员有比较专
3、业的网络知识和丰富的网络管理维护经验。另外网络测试仪一般是实时检测工具,当有突发的或间歇性的网络故障发生时,如何有效的使用网络测试仪实现网络故障诊断也是一个挑战。 1.4 使用网络管理和监控软件 网络管理和监控软件对网络的分析比较全面,能够给网络维护管理人员提供非常有益的帮助。但目前来看网络管理和监控软件存在一些不足的地方,如:网络设备的传输性能情况;用户端的应用性能情况等。另外网络管理和监控软件一般无法实现协议分析,因此在深层次的故障分析上不具备优势。 1.5 使用网络流量监控设备 网络流量监控是网络故障诊断和性能分析及其重要的一环,通过有效的网络流量监控可以快速的实现网络故障的确认并以此为
4、依据提升网络性能。但是目前主流的网络流量监控需要交换机/路由器提供功能上的支持(需要交换机/路由器支持 NetFlow、J-flow、SFlow 等) ,并将占用部分交换机/路由器的资源。另外,网络流量监控也没有办法评估网络设备的传输性能,用户端应用性能等。 1.6 协议分析工具 协议分析是非常有效的网络故障诊断和性能分析工具,但协议分析3要求使用人员有非常深厚的网络理论基础,另外常见的协议分析工具对一次性分析的数据量都有限制,因此在使用面上受到了一些限制。 以上的工具和方法各有优劣,如何选择合适的方法和工具,对网络的故障进行快速诊断,提升网络的性能是所有网络维护管理人员必须面临的棘手问题。对
5、于我局网络管理维护人员也是如此,目前我局信息化建设存在如下一些问题。 2 玉溪局信息化建设存在的问题 2.1 网络设备品牌、数量众多;结构层繁杂;维护难以做到全面深入 我局的网络设备和服务器数量众多、品牌、型号复杂。地理位置分布在不同的建筑,不同的楼层,怎么样才能对网络的故障作出快速反应并提出解决方案,及时的对故障进行排查是我们目前面临的一大难题。当前我们仅凭经验来判断和管理维护网络,这样的工作模式比较被动,并且人工分析的效率低下,难以将所有系统的工作都维护得全面。同时也为后期的网络优化带来了极大的困难,容易造成投资的无谓浪费。 2.2 缺少量化的实时分析系统 由于缺乏工具手段,我们目前只能凭
6、借用户的感受来判断网络的性能,而没有准确的数据来说话,这样就导致了无法准确、快速的了解网络的性能,掌握可能导致网络性能下降的根据原因,对网络的优化也无从谈及。因此我们必须依靠自动化分析工具来实现。这样才能主动提高网络服务的稳定性和高可用性。 2.3 监控中心缺乏简单有效的协议分析工具 网络管理和维护工作的主要目的之一是为了提高 IT 运维的效率,缩4短平均故障恢复时间(MTTR) ,从而提高各业务系统的可用性、稳定性,让各业务系统真正有效地服务于企业正常运转所需的各项工作,并最终为网络优化提供数据基础。在业界,针对网络应用性能管理及故障检测的手段主要为“捕包解码”通过“捕包解码”能够将网络应用
7、故障发生时网络中具体数据和信息一字不差地记录下来,以便故障恢复后能够实现故障现象还原分析。通过“协议分析”能够对每个网络数据传递过程进行最深层次的分析,直接找到故障发生的 Root Cause(根本原因) ,从而防止类似问题再次发生。 2.4 网络、服务器、客户端、软件系统责任界定困难 系统性能下降的原因有多种,包括:网络故障、服务器故障、客户端故障、软件系统故障等。而一旦网络故障的出现,我们经常需要反复多次的排查、定位故障原因,甚至为了判定责任区域属于何方而一起开会讨论,但是获得一致的结果往往很难,因为各小组分别都有自己的故障测试仪器和方法,而这些方法工作在 ISO/OSI 模型的不同层次,
8、所以其测试所参照的标准是各自所在层次的协议标准,它们是相对独立的,很难将这些测试结果组合到一起来互相印证以判断故障。 2.5 缺乏系统优化需要的科学数据 一个能够持续稳定提供服务的系统,在使用过程中一定需要良好的机动维护能力,能够及时根据使用情况调整和优化,目前,我们主要依靠用户的终端感受和故障出现的频率来判断系统的瓶颈,并依次作为网络优化的基础。这种方式以直观感受为主,没有科学的数据基础,无法找到系统的短板,这将直接造成“头痛医头,脚痛医脚” “治标不治本”5的结果,从而导致资金的盲目投入和浪费。 2.6 逐步用更为科学、长期的性能瓶颈评估数据支持系统优化和 IT采购决策 在 IT 采购的概
9、念中有一个著名的“木桶理论” ,硬件、软件、网络、运维能力就像组成木桶的各片木板,任何一个木板短了都会直接导致整个系统其他部分投资浪费,因此整个 IT 系统应该均衡各方面的性能才能避免浪费。 软件每年信息系统进行的软件、硬件投资金额可观,为了能够“花好每一分钱” ,不造成投资浪费,唯一的方法就是在投资采购之前,准确评估出”最短的木板” ,投资的钱都用于改进性能最差部分,从而保证用最小的投资获取最好的性能提升。 2.7 ITIL 与 BSM 需各层次数据源 如果逐步考虑部署 ITIL 或者 BSM 系统,将需要各个层次的性能数据提供数据源,典型的数据源是“最终用户体验时间” ,应用性能响应等各类
10、参数,比如 PMDB(performance management Database,)CMDB(Configuration Managemtn DataBase)等,目前还欠缺全面的业务系统 PMDB 相关的数据。 这些问题使用传统的网络故障诊断和性能分析方法已经不能完全满足我局信息化建设发展水平,因此找到适合我局网络故障诊断和性能分析的方法工具是当前工作的重中之重。 3 适合玉溪供电局网络故障诊断和性能分析的方法工具 目前玉溪平安城市监控系统的的运行从根本上改变了玉溪市的面貌,6该系统通过多点联网监控,最终实现监、控、存、查、管等综合应用,同时为交通、治安、消防、通信、农业、灾害、突发事件
11、等提供基础数据和辅助信息。该系统的建设也为我局的信息化建设提供了诸多有用的思路。如果我局的信息网络中有一套类似“平安城市”的系统,那么我们将可以快速的发现和定位故障,提供科学的基础数据用于网络性能的提升。 借鉴“平安城市”的理念来构建我局的“平安网络”系统,要求该系统具备如下的功能:(1)能够在网络中多点部署并联网分析;(2)实现网络数据的监视;(3)实现网络数据的控制(4)实现网络数据的存取;(5)实现网络数据的查询;(6)实现网络数据的管理 根据以上的需求,我们经多次调研和设备测试,最终选用了某知名品牌的海量在线分析系统。该系统完全符合我局当前的需求,并切合“平安网络”的理念。3.1 能够
12、在网络中多点部署并联网分析 在网络不同点接入设备,并选择条件捕获数据 合同不同点捕获的数据进行分析 根据分析结果自动汇总报告 3.2 实现网络数据的监视 通过系统的实时监视页面可以看到当前时间网络的整体情况,包括:总的流量、网络利用率、网络吞吐量、网络发包频率、网络的单播、多播、广播等情况 7网络中各个应用的分布情况 页面应用的整体分析情况 重要链路的实时分析 3.3 实现网络数据的控制 3.4 实现网络数据的存取 应用性能的取证 网络瓶颈分析 3.5 实现网络数据的查询 数据查询过滤条件 私有协议的添加 简单直观的梯形图 网络故障定位 83.6 实现网络数据的管理 各种应用数据及音视频的还原
13、 报告的编辑 4 该系统的故障诊断和性能分析原理及方式 4.1 海量数据线速全采集 该系统提供高性能、高精度(20 纳秒) ,进行全线速 100%捕获来自10/100/Gigab 网络 4 个网段(通道)的数据(=4Gbps) 。具有大容量的存储空间(8TB)可以连续长期捕获并记录数据。 (1)基于 FPGA 的专用网络接口卡提供“线速捕获”缓冲区性能。 (2)高性能索引算法确保较高的导入磁盘速度,从而快速高效地识别存储的数据。 (3)可用的 RAID 5 磁盘控制器提供额外的冗余;因此,即使其中一个硬盘出现故障存储的数据仍然是安全的。 (4)大容量的数据存储 8TB (5)各种分路器解决方案
14、和 NTM 的多个监视接口提供许多用于监视网9络重要链路的选项这些保存的原始数据,可进行网络性能安全分析及各种故障问题的查找及定位。 4.2 网络异常发现 (1)网络趋势变化。7*24 小时长期监控网络各应用业务数据,可了解其各个时段变化状态,了解其网络正常运行时的变化规律,一旦网络或应用出现异常,可做到及时发觉。 (2)各级别、多应用实时故障告警 经过长时间网络监控分析,了解自身网络的实际情况。可以根据实际情况设置各种参数的门限值、严重级别,对网络中的各种异常情况及时察觉,并及时通过邮件、脚本、或者 SNMP Trap 的方式实时通知管理员,可将网络故障及早排查,避免造成大的损失 (3)各种
15、业务应用的整体分析 各种应用的分布情况及应用的状态变化,通过各个应用的趋势变化,清楚应用的正常状态,清楚各个应用的响应时间分布情况,在不同时段应用的响应快慢变化,以及在整体响应时间中,客户端、服务器端、网络传输分别占用的比例情况。用于发现异常及网络瓶颈。 4.3 异常数据提取 (1)实时过滤、切片功能。具有多个过滤器级别,确保仅将需要的数据捕获到磁盘阵列中,然后,应用额外的过滤器将数据提取到跟踪文件中,以便进行快速分析,最后,应用另一个过滤器,进一步缩小所需数据包的范围。该系统具有独特的切片/过滤器组合,这意味着它可以改进存储在磁盘阵列中的数据包类型,对于与自定义过滤器标准匹配的关键10应用程
16、序,NTM 可以存储整个关键数据包,也可使用切片功能以只存储标题信息,这使您能够保持重要的性能或信号传输数据,并将数据图用于重要事件或应用程序。 (2)过滤条件。用户可以对网络中的各种流量进行实时或离线的过滤,可以通过时间及各种过滤条件进行组合过滤,提取异常数据。更加快捷的分析自己关心的内容。支持灵活多样的实时流量捕获设置。支持基于应用内容(Application 和 VOIP 协议) 、网络层、指定流、IP 子网、MAC地址,VLAN、指定偏移量等条件进行过滤。并且各个过滤条件可以通过与、或、非等操作进行复杂的过滤机制对于非标准的应用或异常流量如攻击或者病毒,用户可以任意定制,并通过图形化进
17、行监控和分析。 (3)异常数据提取步骤。当发现异常问题时,您通常了解发生问题的时间,由于 NTM 按日期和时间对存储的数据包进行分类,因此您可以方便地查找和打开感兴趣的记录,NTM 显示数据包的利用率和重要的统计信息。通过点击鼠标选择调查的时间范围(可精确到毫秒) 。单击“显示跟踪”以将选定的数据包导出到跟踪文件,现在,即可使用分析功能分析数据包,使用过滤器按来源/目标地址、应用程序甚至模式进一步改进感兴趣的跟踪记录,以便对流进行定义和细节分析。 4.4 多段数据合并分析 对于复杂的问题,采取将多个采集点的数据进行整合分析,清楚的了解问题是出现在哪一段?是服务器?是网络传输中?还是客户端本身?使用其简单直观的分析界面,对每个合并的应用的交互过程进行详
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。