络流量大数据分析和管控项目需求资料.docx.doc
《络流量大数据分析和管控项目需求资料.docx.doc》由会员分享,可在线阅读,更多相关《络流量大数据分析和管控项目需求资料.docx.doc(25页珍藏版)》请在温州文客信息科技有限公司上搜索。
1、公安网网络流量大数据分析和管控项目需求书目录1 项目概述 41.1 项目背景 41.2 解决思路 41.3 项目目标 51.4 建设原则 71.4.1 参考标准 71.4.2 可靠性及可用性 71.4.3 安全性 81.4.4 成熟性 81.4.5 先进性 81.4.6 可扩展性 82 架构描述 82.1 整体架构 82.2 功能架构 92.2.1 应用层 112.2.2 接口层 112.2.3 分析服务层 112.2.4 数据资源层 112.2.5 基础设施层 122.2.6 数据可视化 122.2.7 数据交换 122.2.8 流量采集 132.2.9 运维管理 132.2.10 安全管理
2、 133 平台建设需求 133.1 业务门户功能需求 143.1.1 业务功能需求 143.1.2 门户管理功能需求 143.2 业务功能需求 163.2.1 应用识别 163.2.2 流量展示及异常流量识别 173.2.3 流量智能调度 193.2.4 用户画像 213.2.5 应用关联关系 273.2.6 应用画像 293.2.7 精准推送 333.2.8 行为识别 353.3 数据可视化需求 373.4 大数据处理分析组件建设需求 383.4.1 数据服务模块建设要求 393.4.2 大数据分析算法库建设要求 393.4.3 分布式存储建设要求 463.4.4 分布式并行处理建设要求 4
3、63.4.5 实时内存分析处理建设要求 463.4.6 实时分析结果查询建设要求 463.5 ETL 工具建设需求 463.6 实时流量数据收集建设需求 473.7 基础设施建设需求 473.8 数据交换组件需求 473.9 安全管理需求 473.10 运维管理需求 494 数据采集建设需求 494.1 采集器部署要求 494.2 采集器数据采集方案 504.3 流量控制调度能力要求 504.4 采集器性能及可靠性 511 项目概述1.1 项目背景目前内网运行管理中面临以下三方面挑战:1. 流量分布不均流量分布不均体现在,忙闲时流量差距较大、区域性流量差距较大和流入流出差距较大。造成此类问题的
4、主要原因不是链路资源不足,而是数据资源分布不均。因此,现有扩容链路是解决拥塞问题的办法之一,优点是效果明显,升级链路后拥塞能够得到有效缓解,但是无法从根源去解决此类问题。2. 应用服务质量保障不到位随着应用的不断发展,部分业务系统的服务范围和可靠性要求提出了新的要求。一方面,随着应用的广泛使用,内网上系统的数量、种类和系统数据量在大幅增加。在此背景下,内网按照原有的网络设计承载能力和数据转发机制上,无法发挥现有网络传输能力和利用带宽资源,易发生网络拥塞和服务质量下降等情况。另一方面,业务系统的服务质量和服务要求已经不满足于畅通率的指标,而对网络传输质量、带宽保障和延迟等提出了新的要求。现有运维
5、手段无法满足此类保障要求。3. 网络管控手段有限,时效性不强随着应用的快速发展,网络服务内容也在发生更本性变化。从最初的提供数据传输管道,到提供更好的网络传输质量保障。目前主干网在网络流量管控、调度方面,存在不足,传统的 QOS 需要网络全程部署,精准度低、调整范围广、工作量大,无法满足现阶段内网运营管理需求。尤其是针对突发流量导致的网络拥塞、网络设备或者链路故障导致传输能力下降、临时提出的固定时间、固定区域的网络保障要求等问题时,没有高效的流量调度和管控手段。即使发现问题,无法第一时间精准管控和调度。1.2 解决思路针对内网运行管理中面临的,应从三个方面进行解决,具体内容如下: 首先,应该做
6、到能够准确了解内网中的流量,分析内网的各个链路的流量中,都有哪些数据和应用、每个应用的流量大小、服务时段、服务的质量如何、这个应用在为哪些系统和用户在服务,以及详细的流量信息,便于开展流量的调度和应用服务保障策略的制定。 其次应该能够准确预测流量,这个预测不是简单的通过现有的今年流量数据和曲线去测算明年的流量,而是通过对应用分类,针对各个应用的流量、服务时段和服务质量,去测算每个应用的流量趋势,再通过汇总,可以精准的评估出内网每条链路每个时段的流量大小和趋势。一方面可以更为精准的预测流量,为链路扩容和网络流量调度提供更为精准的数据支持,另一方面,也可以为重点应用服务保障策略提供准确的数据支持。
7、 再次应该能够准确管控流量。管控不是关停相关服务,也不是按照传统网络策略采取的丢包式的牺牲策略。而是通过对不同应用的网络需求,制定不同的调度和管理方案。例如,对网络延迟较敏感的实时类应用,提供较高的带宽保证传输质量,对于网络速度不敏感的应用,按照时段或者按照带宽利用率动态限制占用的带宽大小,保证应用正常使用的前提下,合理利用内网带宽资源,对于备份类和非工作时段的数据传输,调度到非忙时传输,对于本地数据资源丰富的,推送相关本地资源信息,避免异地查询或者下载,占用广域网资源等 最后做好重点应用的服务和保障工作。一方面是通过精准的流量预测和智能的调度和管控确保提供足够的可靠的网络资源,另一方面,按照
8、应用的关联关系,对应用服务所需的整个应用和资源组提供所需的关联服务和保障。通过定制的行为识别还可以为应用提供更广泛的服务和保障。1.3 项目目标本项目目标包括两个方面:业务目标和建设目标,其中业务目标包括三个方面:智能化流量趋势分析、全网流量智能调度和重点应用智能化保障:项目业务目标精准的流量趋势分析:1) 能够对指定链路、指定某个应用或某类应用,通过数据挖掘算法,智能化进行指定周期(例如五年后)的指定时段(例如全天时段、或者白天时段)的流量趋势预测;2) 能通过系统可视化能力,用户可通过界面选择操作(例如界面上选择指定周期、指定时段 ),进行分析结果的图形化展示。整个业务场景需要使用的业务模
9、型:应用画像、流量预测。整个业务场景的实现中,使用的分析方法有: 简单统计类:链路指定时段的流量、指定应用的指定时段的流量,用户访问量,跨域访问量等 数据挖掘类:链路的流向趋势,链路的应用分布 应用的用户地域分布; 智能分析类:应用画像之分类 流量预测。全网流量智能调度1) 全网流量规划:通过应用画像及流量的可视化能力,可以从整体分析全网络流量的现状,通过查看链路的流量流向信息,链路上具体的应用分类情况,可以指定整个网络整体的流量规划。通过实时分析数据和预测数据进行流量控制规则生成,分析方法中统计类的包括链路流量趋势,链路的流向趋势,链路的应用分,智能分析类的包括全网流量趋势预测,应用分类。2
10、) 根据规划生成流量策略,检测如果链路流量不符合流量规划,则采用精准推送方式提醒流量使用者。流量规划策略可包括流量的分时段使用带宽要求,应用的分地域使用带宽要求,链路带宽阈值要求。3) 紧急情况流量管控,当网络中发生拥塞,或预测网络中发生拥塞,则通知用户或直接对采集器下发流量控制策略,可以对低价值应用进行控制或疏导(CAR,打标签通过策略路由转发) ,同时对高价值应用进行业务策略保证(配置 Qos 策略)4) 整个业务需要使用的业务模型:流量趋势分析、应用画像、精准推送、流量智能管控。重点应用智能化保障1) 通过对应用系统的分析,对整个应用系统使用的带宽情况,支撑此应用系统的带宽使用情况进行分
11、析,对采集器下发 QoE 策略,对应用系统对外提供服务的带宽和支撑应用系统使用的带宽进行保障。2) 整个分析采用统计方法的是应用的带宽使用情况,支撑系统的带宽情况。采用挖掘和智能分析方法的是应用关系,流量趋势预测。3) 整个业务需要使用的业务模型:流量趋势分析、应用画像、流量智能管控。项目建设目标 构建网络大数据分析平台,基于领先的大数据处理技术,实现对海量网络流量数据的存储、统计分析和深度学习;实现针对网络流量数据的数据挖掘和深度分析模型和算法库; 建立模型库:通过大数据分析的方法,设计符合内网趋势和研究方向的网络流量数据分析模型,并通过通过大数据分析算法库,将业务模型固化实现,支撑网络运维
12、工作发展。 构建基于全网的易于部署的高性能数据采集器,采集器需要支持海量的数据提取及预处理能力,支持完善的包检测及丰富的自定义能力,满足大数据平台的数据采集要求。 通过系统建设提供丰富的功能,系统提供大数据分析,用户画像,应用画像,关联关系分析等功能,提供内网检测,信息推送,流量管理等主动控制功能。通过关键项进行综合评分,提供全面的信息化程度展现。相关工作需要对全量的网络数据和应用信息进行相应的梳理、归类,采用大数据的技术和理念进行深度分析,可以获得新的有价值的信息,发现其中的规律和趋势,挖掘数据中内在的价值,将网络运维工作带入一个新的领域。一方面在运维思路上,将从关注“网络通断”的传统运维管
13、理提升到关注“网络流量内容”的智能化、精细化的网络管理;另一方面将从原有的故障事后处理的被动响应转化为故障事前预测,通过趋势分析结合智能管控手段,有效的避免异常的出现,实现网络运维的主动性预防。1.4 建设原则网络大数据分析平台应利用当前主流的大数据技术构建,严格遵循国家相关标准,在技术上领先,系统具备高可靠性、高安全性和高可用性,软件架构成熟,应用技术和模式具有先进性,平台具备动态扩展能力。1.4.1 参考标准网络大数据分析平台必须遵循相关国家和行业标准规范,包括但不限于如下的列表。 国家信息化“九五”规划和 2010 年远景目标(纲要) 国家信息化领导小组关于我国电子政务建设指导意见 (中
14、办发200217 号) 电子政务工程技术指南 (国信办20032 号) 电子政务标准指南 ,国信办和国家标准委员会,2002 年 5 月 电子政务标准化指南总则 (国标委高新200242 号) 信息系统安全等级保护定级指南GB-T 22240-2008 信息系统安全保护等级基本要求GB-T 22239-2008 信息系统安全等级保护实施指南GB-T 25058-2010 信息系统等级保护安全设计技术要求GB-T 25070-2010 计算机信息系统安全保护划分准则GB17859-1999 信息系统安全等级保护测评准则送审稿 涉及国家秘密的计算机信息系统安全保密方案设计指南 ,国家保密局,200
15、1 年 4 月 涉及国家秘密的计算机信息系统安全保密技术要求 ,国家保密局,2000 年 7 月 计算机软件工程规范国家标准汇编 GB8567-88 计算机软件产品开发文件编制指南 GB/T 8567-1988 计算机软件需求说明编制指南 GB/T 9385-1988 计算机件分类与代码 GB/T 13702-1992 软件工程术语 GB/T 11457-19951.4.2 可靠性及可用性网络大数据分析平台的可靠性包括整体可靠性、数据可靠性和单一设备可靠性三个层次。通过大数据平台的分布式计算、分布式存储架构,从整体系统上提高可靠性,降低系统对单设备可靠性的要求。可用性是通过冗余、高可用集群、应
16、用与底层设备松耦合等特性来体现。在网络大数据分析平台规划设计、设备选型/配置中大量采用了硬件设备冗余、网络链路冗余、应用容错等手段,充分保证了整体系统的可用性。1.4.3 安全性遵循行业安全规范,设计安全防护保证大数据分析平台安全。重点保障网络安全、主机安全、虚拟化安全、数据保护。1.4.4 成熟性从架构设计、软硬件选型和 IT 管理三个方面设计网络大数据分析平台解决方案,采用经过大规模商用实践检验的架构方案和软硬件产品选型,采用符合 ITIL 规范的 IT 管理方案,保障方案的成熟性。1.4.5 先进性合理利用大数据的技术先进性和理念先进性,资源动态部署等先进技术与模式,并与网络大数据分析业
17、务相结合,确保先进技术与模式应用的有效与适用。1.4.6 可扩展性支撑网络大数据分析平台的资源需要根据业务应用工作负荷需求进行弹性伸缩,IT 基础架构应与业务系统松耦合,这样在业务系统进行容量扩展时,只需增加相应数量的 IT 硬件设备,即可实现系统的灵活扩展。2 架构描述2.1 整体架构本项目整体架构图如下图所示,首先由网络流量采集器采集实时流量数据,通过实时流量数据收集模块,将实时采集的流量数据存储本地之后,通过大数据平台的 ETL 工具,完成数据的清洗、装换,之后装载至大数据处理平台,进行处理分析。基于大数据的处理技术,构建符合智能网络管理需求的大数据分析业务模型,包括用户画像、应用画像、
18、关系分析、流量预测、精准推送和定制行为识别等,对网络流量数据进行大数据分析,借助专业的可视化组件,完成数据分析结果的展现。图 1:系统整体架构设计图通过专业的数据交换组件,实现网络大数据分析平台同其他业务系统和省厅平台的数据交换,实现数据的共享和有效利用。运维管理和平台安全对于网络大数据分析平台至关重要,通过专业的安全管理模块和运维管理模块,实现平台软硬件一体化运维管理和全方位、端到端、立体的安全管理体系。大数据处理和分析组件是平台建设的核心,该项目采用业界成熟的、标准的、经过大量案例验证成功的技术路线。Hadoop 作为业界大数据的事实标准,平台将基于 Hadoop 生态系统实现大数据分析处
19、理,同时采用并行数据库技术,实现分析结果的快速检索和可视化展现,满足网络监控的可视化分析需求。2.2 功能架构网络监控大数据分析平台的功能架构如下图所示,基于系统整体架构的设计,网络监控大数据分析平台功能主要包括五层:基础设施层、数据资源层、分析服务层、接口层和应用层,以及五个支持功能组件构成:安全管理、运维管理、数据可视化、数据交换和流量采集。平台基于主流大数据技术构建,符合主流云架构开发要求,满足部信息中心云架构开发要求。各部分主要功能简述如下:图 2: 系统功能架构设计图基础设施层主要提供基本计算资源、存储资源和网络资源,考虑平台的开放性和兼容性,支持云平台构建,兼容符合业界主流的开放式
20、云架构。数据资源层是大数据平台的核心,主要提供大数据分析处理的存储和计算组件。首先通过实时流量收集模块,将采集器实时采集的数据收集成流量数据文件,之后写入 FTP 服务器,形成流量数据缓存库;之后通过专业的ETL 工具,将采集的流量数据进行清洗、转换,转载进大数据平台,形成流量监控基础资源库,以供上层业务分析使用。之后根据大数据分析业务的需求,将基础资源库中的数据进行集成处理,形成专业的主题库,包括流量专题库、用户专题库和应用专题库;依据上层统计和数据挖掘、机器学习的需要,提供专业的数据服务,包括 MapReduce JAVA API,SQL,HBase API,HQL 等;同时提供针对专题库
21、的数据管理功能,能够对数据质量进行管理,包括元数据管理、数据质量管理、数据提取规则等。分析服务层主要用于实现网络监控大数据分析业务,包括业务模型和算法管理。业务模型主要包括:用户画像、应用画像、关系分析、流量预测、精准推送和定制行为识别。算法管理主要提供基本的大数据分析算法,包括:趋势预测、特征分析、关联规则、分类分析、聚类分析、个性化推荐等。接口层主要用于提供数据访问的接口,用于分析结果的可视化展现,包括 ESB 数据服务总线、Web 服务接口和SQL 接口等,支撑上层业务门户的可视化展现。应用层主要用于提供上层业务门户对分析结果的可视化展现,包括:应用的精准推送、网络流量预测分析、行为识别
22、、应用关系分析。同时要提供门户基本的管理功能。运维管理模块主要用于平台整体的运维管理,包括软硬件安装部署、系统全访问监控、硬件和软件参数配置、性能优化、告警管理、升级扩容等。安全管理主要用于构筑整体网络监控大数据平台的安全防护,主要功能包括:用户管理、访问控制、日志管理、HA 管理、数据加密、容灾备份等。数据可视化组件用于分析结果的展现,平台提供两种数据展示方式:报表展现、图形化展示。数据交换组件主要用于满足平台对同其他业务系统和省厅平台的数据交换,实现数据的共享和有效利用。主要包括:数据导入、数据导出两个功能模块。数据采集主要用于网络流量数据的采集和协议解析。主要功能模块包括:网络流量采集、
23、协议解析、流量数据实时发送。2.2.1 应用层应用层为用户提供统一的门户和应用集成服务,实现网络大数据分析的各项业务功能,其主要功能包括两方面:业务功能和门户管理功能。业务功能:提供上层业务门户对分析结果的可视化展现,包括: 应用的精准推送、网络流量预测分析、行为识别、应用关系分析,应用画像、定制行为识别等。门户管理功能:如统一的待办任务工作台、统一的消息提醒、统一的预警信息等等。基于该产品集成各类应用系统,可实现权限管理、账号管理、单点登录、在线帮助、应用日志和审计、门户个性化等,基于标准规范之上,持续改善用户体验。2.2.2 接口层接口层主要用于提供数据访问的接口,用于分析结果的可视化展现
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 文钱
下载 | 加入VIP,畅享折扣下载 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 流量 数据 分析 项目 需求 资料 docx
![提示](https://www.wenke99.com/images/bang_tan.gif)
链接地址:https://www.wenke99.com/p-935054.html