1、公安网网络流量大数据分析和管控项目需求书目录1 项目概述 41.1 项目背景 41.2 解决思路 41.3 项目目标 51.4 建设原则 71.4.1 参考标准 71.4.2 可靠性及可用性 71.4.3 安全性 81.4.4 成熟性 81.4.5 先进性 81.4.6 可扩展性 82 架构描述 82.1 整体架构 82.2 功能架构 92.2.1 应用层 112.2.2 接口层 112.2.3 分析服务层 112.2.4 数据资源层 112.2.5 基础设施层 122.2.6 数据可视化 122.2.7 数据交换 122.2.8 流量采集 132.2.9 运维管理 132.2.10 安全管理
2、 133 平台建设需求 133.1 业务门户功能需求 143.1.1 业务功能需求 143.1.2 门户管理功能需求 143.2 业务功能需求 163.2.1 应用识别 163.2.2 流量展示及异常流量识别 173.2.3 流量智能调度 193.2.4 用户画像 213.2.5 应用关联关系 273.2.6 应用画像 293.2.7 精准推送 333.2.8 行为识别 353.3 数据可视化需求 373.4 大数据处理分析组件建设需求 383.4.1 数据服务模块建设要求 393.4.2 大数据分析算法库建设要求 393.4.3 分布式存储建设要求 463.4.4 分布式并行处理建设要求 4
3、63.4.5 实时内存分析处理建设要求 463.4.6 实时分析结果查询建设要求 463.5 ETL 工具建设需求 463.6 实时流量数据收集建设需求 473.7 基础设施建设需求 473.8 数据交换组件需求 473.9 安全管理需求 473.10 运维管理需求 494 数据采集建设需求 494.1 采集器部署要求 494.2 采集器数据采集方案 504.3 流量控制调度能力要求 504.4 采集器性能及可靠性 511 项目概述1.1 项目背景目前内网运行管理中面临以下三方面挑战:1. 流量分布不均流量分布不均体现在,忙闲时流量差距较大、区域性流量差距较大和流入流出差距较大。造成此类问题的
4、主要原因不是链路资源不足,而是数据资源分布不均。因此,现有扩容链路是解决拥塞问题的办法之一,优点是效果明显,升级链路后拥塞能够得到有效缓解,但是无法从根源去解决此类问题。2. 应用服务质量保障不到位随着应用的不断发展,部分业务系统的服务范围和可靠性要求提出了新的要求。一方面,随着应用的广泛使用,内网上系统的数量、种类和系统数据量在大幅增加。在此背景下,内网按照原有的网络设计承载能力和数据转发机制上,无法发挥现有网络传输能力和利用带宽资源,易发生网络拥塞和服务质量下降等情况。另一方面,业务系统的服务质量和服务要求已经不满足于畅通率的指标,而对网络传输质量、带宽保障和延迟等提出了新的要求。现有运维
5、手段无法满足此类保障要求。3. 网络管控手段有限,时效性不强随着应用的快速发展,网络服务内容也在发生更本性变化。从最初的提供数据传输管道,到提供更好的网络传输质量保障。目前主干网在网络流量管控、调度方面,存在不足,传统的 QOS 需要网络全程部署,精准度低、调整范围广、工作量大,无法满足现阶段内网运营管理需求。尤其是针对突发流量导致的网络拥塞、网络设备或者链路故障导致传输能力下降、临时提出的固定时间、固定区域的网络保障要求等问题时,没有高效的流量调度和管控手段。即使发现问题,无法第一时间精准管控和调度。1.2 解决思路针对内网运行管理中面临的,应从三个方面进行解决,具体内容如下: 首先,应该做
6、到能够准确了解内网中的流量,分析内网的各个链路的流量中,都有哪些数据和应用、每个应用的流量大小、服务时段、服务的质量如何、这个应用在为哪些系统和用户在服务,以及详细的流量信息,便于开展流量的调度和应用服务保障策略的制定。 其次应该能够准确预测流量,这个预测不是简单的通过现有的今年流量数据和曲线去测算明年的流量,而是通过对应用分类,针对各个应用的流量、服务时段和服务质量,去测算每个应用的流量趋势,再通过汇总,可以精准的评估出内网每条链路每个时段的流量大小和趋势。一方面可以更为精准的预测流量,为链路扩容和网络流量调度提供更为精准的数据支持,另一方面,也可以为重点应用服务保障策略提供准确的数据支持。
7、 再次应该能够准确管控流量。管控不是关停相关服务,也不是按照传统网络策略采取的丢包式的牺牲策略。而是通过对不同应用的网络需求,制定不同的调度和管理方案。例如,对网络延迟较敏感的实时类应用,提供较高的带宽保证传输质量,对于网络速度不敏感的应用,按照时段或者按照带宽利用率动态限制占用的带宽大小,保证应用正常使用的前提下,合理利用内网带宽资源,对于备份类和非工作时段的数据传输,调度到非忙时传输,对于本地数据资源丰富的,推送相关本地资源信息,避免异地查询或者下载,占用广域网资源等 最后做好重点应用的服务和保障工作。一方面是通过精准的流量预测和智能的调度和管控确保提供足够的可靠的网络资源,另一方面,按照
8、应用的关联关系,对应用服务所需的整个应用和资源组提供所需的关联服务和保障。通过定制的行为识别还可以为应用提供更广泛的服务和保障。1.3 项目目标本项目目标包括两个方面:业务目标和建设目标,其中业务目标包括三个方面:智能化流量趋势分析、全网流量智能调度和重点应用智能化保障:项目业务目标精准的流量趋势分析:1) 能够对指定链路、指定某个应用或某类应用,通过数据挖掘算法,智能化进行指定周期(例如五年后)的指定时段(例如全天时段、或者白天时段)的流量趋势预测;2) 能通过系统可视化能力,用户可通过界面选择操作(例如界面上选择指定周期、指定时段 ),进行分析结果的图形化展示。整个业务场景需要使用的业务模
9、型:应用画像、流量预测。整个业务场景的实现中,使用的分析方法有: 简单统计类:链路指定时段的流量、指定应用的指定时段的流量,用户访问量,跨域访问量等 数据挖掘类:链路的流向趋势,链路的应用分布 应用的用户地域分布; 智能分析类:应用画像之分类 流量预测。全网流量智能调度1) 全网流量规划:通过应用画像及流量的可视化能力,可以从整体分析全网络流量的现状,通过查看链路的流量流向信息,链路上具体的应用分类情况,可以指定整个网络整体的流量规划。通过实时分析数据和预测数据进行流量控制规则生成,分析方法中统计类的包括链路流量趋势,链路的流向趋势,链路的应用分,智能分析类的包括全网流量趋势预测,应用分类。2
10、) 根据规划生成流量策略,检测如果链路流量不符合流量规划,则采用精准推送方式提醒流量使用者。流量规划策略可包括流量的分时段使用带宽要求,应用的分地域使用带宽要求,链路带宽阈值要求。3) 紧急情况流量管控,当网络中发生拥塞,或预测网络中发生拥塞,则通知用户或直接对采集器下发流量控制策略,可以对低价值应用进行控制或疏导(CAR,打标签通过策略路由转发) ,同时对高价值应用进行业务策略保证(配置 Qos 策略)4) 整个业务需要使用的业务模型:流量趋势分析、应用画像、精准推送、流量智能管控。重点应用智能化保障1) 通过对应用系统的分析,对整个应用系统使用的带宽情况,支撑此应用系统的带宽使用情况进行分
11、析,对采集器下发 QoE 策略,对应用系统对外提供服务的带宽和支撑应用系统使用的带宽进行保障。2) 整个分析采用统计方法的是应用的带宽使用情况,支撑系统的带宽情况。采用挖掘和智能分析方法的是应用关系,流量趋势预测。3) 整个业务需要使用的业务模型:流量趋势分析、应用画像、流量智能管控。项目建设目标 构建网络大数据分析平台,基于领先的大数据处理技术,实现对海量网络流量数据的存储、统计分析和深度学习;实现针对网络流量数据的数据挖掘和深度分析模型和算法库; 建立模型库:通过大数据分析的方法,设计符合内网趋势和研究方向的网络流量数据分析模型,并通过通过大数据分析算法库,将业务模型固化实现,支撑网络运维
12、工作发展。 构建基于全网的易于部署的高性能数据采集器,采集器需要支持海量的数据提取及预处理能力,支持完善的包检测及丰富的自定义能力,满足大数据平台的数据采集要求。 通过系统建设提供丰富的功能,系统提供大数据分析,用户画像,应用画像,关联关系分析等功能,提供内网检测,信息推送,流量管理等主动控制功能。通过关键项进行综合评分,提供全面的信息化程度展现。相关工作需要对全量的网络数据和应用信息进行相应的梳理、归类,采用大数据的技术和理念进行深度分析,可以获得新的有价值的信息,发现其中的规律和趋势,挖掘数据中内在的价值,将网络运维工作带入一个新的领域。一方面在运维思路上,将从关注“网络通断”的传统运维管
13、理提升到关注“网络流量内容”的智能化、精细化的网络管理;另一方面将从原有的故障事后处理的被动响应转化为故障事前预测,通过趋势分析结合智能管控手段,有效的避免异常的出现,实现网络运维的主动性预防。1.4 建设原则网络大数据分析平台应利用当前主流的大数据技术构建,严格遵循国家相关标准,在技术上领先,系统具备高可靠性、高安全性和高可用性,软件架构成熟,应用技术和模式具有先进性,平台具备动态扩展能力。1.4.1 参考标准网络大数据分析平台必须遵循相关国家和行业标准规范,包括但不限于如下的列表。 国家信息化“九五”规划和 2010 年远景目标(纲要) 国家信息化领导小组关于我国电子政务建设指导意见 (中
14、办发200217 号) 电子政务工程技术指南 (国信办20032 号) 电子政务标准指南 ,国信办和国家标准委员会,2002 年 5 月 电子政务标准化指南总则 (国标委高新200242 号) 信息系统安全等级保护定级指南GB-T 22240-2008 信息系统安全保护等级基本要求GB-T 22239-2008 信息系统安全等级保护实施指南GB-T 25058-2010 信息系统等级保护安全设计技术要求GB-T 25070-2010 计算机信息系统安全保护划分准则GB17859-1999 信息系统安全等级保护测评准则送审稿 涉及国家秘密的计算机信息系统安全保密方案设计指南 ,国家保密局,200
15、1 年 4 月 涉及国家秘密的计算机信息系统安全保密技术要求 ,国家保密局,2000 年 7 月 计算机软件工程规范国家标准汇编 GB8567-88 计算机软件产品开发文件编制指南 GB/T 8567-1988 计算机软件需求说明编制指南 GB/T 9385-1988 计算机件分类与代码 GB/T 13702-1992 软件工程术语 GB/T 11457-19951.4.2 可靠性及可用性网络大数据分析平台的可靠性包括整体可靠性、数据可靠性和单一设备可靠性三个层次。通过大数据平台的分布式计算、分布式存储架构,从整体系统上提高可靠性,降低系统对单设备可靠性的要求。可用性是通过冗余、高可用集群、应
16、用与底层设备松耦合等特性来体现。在网络大数据分析平台规划设计、设备选型/配置中大量采用了硬件设备冗余、网络链路冗余、应用容错等手段,充分保证了整体系统的可用性。1.4.3 安全性遵循行业安全规范,设计安全防护保证大数据分析平台安全。重点保障网络安全、主机安全、虚拟化安全、数据保护。1.4.4 成熟性从架构设计、软硬件选型和 IT 管理三个方面设计网络大数据分析平台解决方案,采用经过大规模商用实践检验的架构方案和软硬件产品选型,采用符合 ITIL 规范的 IT 管理方案,保障方案的成熟性。1.4.5 先进性合理利用大数据的技术先进性和理念先进性,资源动态部署等先进技术与模式,并与网络大数据分析业
17、务相结合,确保先进技术与模式应用的有效与适用。1.4.6 可扩展性支撑网络大数据分析平台的资源需要根据业务应用工作负荷需求进行弹性伸缩,IT 基础架构应与业务系统松耦合,这样在业务系统进行容量扩展时,只需增加相应数量的 IT 硬件设备,即可实现系统的灵活扩展。2 架构描述2.1 整体架构本项目整体架构图如下图所示,首先由网络流量采集器采集实时流量数据,通过实时流量数据收集模块,将实时采集的流量数据存储本地之后,通过大数据平台的 ETL 工具,完成数据的清洗、装换,之后装载至大数据处理平台,进行处理分析。基于大数据的处理技术,构建符合智能网络管理需求的大数据分析业务模型,包括用户画像、应用画像、
18、关系分析、流量预测、精准推送和定制行为识别等,对网络流量数据进行大数据分析,借助专业的可视化组件,完成数据分析结果的展现。图 1:系统整体架构设计图通过专业的数据交换组件,实现网络大数据分析平台同其他业务系统和省厅平台的数据交换,实现数据的共享和有效利用。运维管理和平台安全对于网络大数据分析平台至关重要,通过专业的安全管理模块和运维管理模块,实现平台软硬件一体化运维管理和全方位、端到端、立体的安全管理体系。大数据处理和分析组件是平台建设的核心,该项目采用业界成熟的、标准的、经过大量案例验证成功的技术路线。Hadoop 作为业界大数据的事实标准,平台将基于 Hadoop 生态系统实现大数据分析处
19、理,同时采用并行数据库技术,实现分析结果的快速检索和可视化展现,满足网络监控的可视化分析需求。2.2 功能架构网络监控大数据分析平台的功能架构如下图所示,基于系统整体架构的设计,网络监控大数据分析平台功能主要包括五层:基础设施层、数据资源层、分析服务层、接口层和应用层,以及五个支持功能组件构成:安全管理、运维管理、数据可视化、数据交换和流量采集。平台基于主流大数据技术构建,符合主流云架构开发要求,满足部信息中心云架构开发要求。各部分主要功能简述如下:图 2: 系统功能架构设计图基础设施层主要提供基本计算资源、存储资源和网络资源,考虑平台的开放性和兼容性,支持云平台构建,兼容符合业界主流的开放式
20、云架构。数据资源层是大数据平台的核心,主要提供大数据分析处理的存储和计算组件。首先通过实时流量收集模块,将采集器实时采集的数据收集成流量数据文件,之后写入 FTP 服务器,形成流量数据缓存库;之后通过专业的ETL 工具,将采集的流量数据进行清洗、转换,转载进大数据平台,形成流量监控基础资源库,以供上层业务分析使用。之后根据大数据分析业务的需求,将基础资源库中的数据进行集成处理,形成专业的主题库,包括流量专题库、用户专题库和应用专题库;依据上层统计和数据挖掘、机器学习的需要,提供专业的数据服务,包括 MapReduce JAVA API,SQL,HBase API,HQL 等;同时提供针对专题库
21、的数据管理功能,能够对数据质量进行管理,包括元数据管理、数据质量管理、数据提取规则等。分析服务层主要用于实现网络监控大数据分析业务,包括业务模型和算法管理。业务模型主要包括:用户画像、应用画像、关系分析、流量预测、精准推送和定制行为识别。算法管理主要提供基本的大数据分析算法,包括:趋势预测、特征分析、关联规则、分类分析、聚类分析、个性化推荐等。接口层主要用于提供数据访问的接口,用于分析结果的可视化展现,包括 ESB 数据服务总线、Web 服务接口和SQL 接口等,支撑上层业务门户的可视化展现。应用层主要用于提供上层业务门户对分析结果的可视化展现,包括:应用的精准推送、网络流量预测分析、行为识别
22、、应用关系分析。同时要提供门户基本的管理功能。运维管理模块主要用于平台整体的运维管理,包括软硬件安装部署、系统全访问监控、硬件和软件参数配置、性能优化、告警管理、升级扩容等。安全管理主要用于构筑整体网络监控大数据平台的安全防护,主要功能包括:用户管理、访问控制、日志管理、HA 管理、数据加密、容灾备份等。数据可视化组件用于分析结果的展现,平台提供两种数据展示方式:报表展现、图形化展示。数据交换组件主要用于满足平台对同其他业务系统和省厅平台的数据交换,实现数据的共享和有效利用。主要包括:数据导入、数据导出两个功能模块。数据采集主要用于网络流量数据的采集和协议解析。主要功能模块包括:网络流量采集、
23、协议解析、流量数据实时发送。2.2.1 应用层应用层为用户提供统一的门户和应用集成服务,实现网络大数据分析的各项业务功能,其主要功能包括两方面:业务功能和门户管理功能。业务功能:提供上层业务门户对分析结果的可视化展现,包括: 应用的精准推送、网络流量预测分析、行为识别、应用关系分析,应用画像、定制行为识别等。门户管理功能:如统一的待办任务工作台、统一的消息提醒、统一的预警信息等等。基于该产品集成各类应用系统,可实现权限管理、账号管理、单点登录、在线帮助、应用日志和审计、门户个性化等,基于标准规范之上,持续改善用户体验。2.2.2 接口层接口层主要用于提供数据访问的接口,用于分析结果的可视化展现
24、,包括 ESB 数据服务总线、Web 服务接口和SQL 接口等,支撑上层业务门户的可视化展现。业务门户在访问数据分析结果时,可以通过接口层提供的访问接口,直接访问数据分析结果。2.2.3 分析服务层分析服务层主要用于实现网络监控大数据分析业务,包括业务模型和算法管理。业务模型主要包括:用户画像、应用画像、关系分析、流量预测、精准推送和定制行为识别。算法管理主要提供基本的大数据分析算法,包括:趋势预测、特征分析、关联规则、分类分析、聚类分析、个性化推荐等。2.2.4 数据资源层数据资源层是大数据平台的核心,主要提供大数据分析处理的存储和计算组件。首先通过实时流量收集模块,将采集器实时采集的数据收
25、集成流量数据文件,之后写入 FTP 服务器,形成流量数据缓存库;之后通过专业的ETL 工具,将采集的流量数据进行清洗、转换,转载进大数据平台,形成流量监控基础资源库,以供上层业务分析使用。之后根据大数据分析业务的需求,将基础资源库中的数据进行集成处理,形成专业的主题库,包括流量专题库、用户专题库和应用专题库;依据上层统计和数据挖掘、机器学习的需要,提供专业的数据服务,包括 MapReduce JAVA API,Spark,SQL,HBase API,HQL 等;同时提供针对专题库的数据管理功能,能够对数据质量进行管理,包括元数据管理、数据质量管理、数据提取规则等。数据资源层由以下部分组成: 实
26、时流量数据收集:收集采集器实时采集的流量数据,写入 FTP 服务器,形成流量数据缓存库。 流量数据缓存库:存储采集组件实时采集的网络流量数据,供 ETL 工具使用。 数据 ETL 处理:用于流量数据的清洗、转换和装载。主要用于流量数据的预处理和加载。 流量监控基础资源库:主要用于存储基本的流量数据,是流量数据的全集。 专题库:根据大数据分析业务的需求,将基础资源库中的数据进行集成处理,形成专业的主题库,包括流量专题库、用户专题库和应用专题库。 数据服务:基于大数据分析模型和算法的需求,提供基本的数据服务,包括 MapReduce JAVA API,Spark,SQL ,HBase API,HQ
27、L 等数据访问服务。 数据管理:根据大数据应用要求对汇聚的数据资源进行组织、管理和高效率运算, 基于大数据架构的数据资源组织与计算:根据大数据应用要求对汇聚的数据资源进行组织、管理,包括元数据管理、数据质量管理、数据提取规则等。2.2.5 基础设施层基础设施层主要提供基本计算资源、存储资源和网络资源,考虑平台的开放性和兼容性,将支持两种方式构建基础设施,采用主流的云架构,包括华为云、阿里云、百度云等;一种采用独立硬件提供,包括计算存储服务器、独立的网络设备等。2.2.6 数据可视化数据可视化组件用于分析结果的展现,平台提供两种数据展示方式:报表展现、图形化展示。2.2.7 数据交换数据交换组件
28、主要用于满足平台对同其他业务系统和省厅平台的数据交换,实现数据的共享和有效利用。主要包括:数据导入、数据导出两个功能模块。2.2.8 流量采集数据采集层对整个平台提供数据支撑,通过多种方式获取丰富的数据。采集层可以通过专用网络数据采集器采集网络数据,通过网管系统获得网络管理数据,可以通过网络设备获取网络设备日志。采集器部署在部,省,市三级的数据中心及网络出口,可以获取用户及应用的网络数据。专用的高性能采集器采用深度报检测(DPI)技术,对网络数据进行实时分析,抽取。通过专用采集器的实时分析处理,将网络数据进行千分之一的信息整理,根据业务需要将数据按照指定格式上送到数据仓库。2.2.9 运维管理
29、运维管理模块主要用于平台整体的运维管理,包括软硬件安装部署、系统全访问监控、硬件和软件参数配置、性能优化、告警管理、升级扩容等。2.2.10 安全管理安全管理主要用于构筑整体网络监控大数据平台的安全防护,主要功能包括:用户管理、访问控制、日志管理、HA 管理、数据加密、容灾备份等。3 平台建设需求该项目用于构建网络大数据分析平台,通过专业的网络流量数据包采集工具,获取网络运行数据,基于大数据分析技术,进行专业的数据统计和算法分析,进行可视化展示,支撑业务的发展。总体架构如下图所示:图 3:系统总体架构设计图总体上项目建设需求可分为业务门户需求、业务功能需求,大数据处理分析需求,ETL 处理分析
30、需求,基础设施需求,数据采集需求,实时流量数据收集需求,数据交换模块需求,数据可视化需求,安全管理需求,运维管理需求等。具体描述如下:3.1 业务门户功能需求3.1.1 业务功能需求业务门户主要用于对分析结果的可视化展现,包括:应用的精准推送、网络流量预测分析、行为识别、应用关系分析。同时要提供门户基本的管理功能。3.1.2 门户管理功能需求门户管理功能:如统一的待办任务工作台、统一的消息提醒、统一的预警信息等等。基于该产品集成各类应用系统,可实现权限管理、账号管理、单点登录、在线帮助、应用日志和审计、门户个性化等,基于标准规范之上,持续改善用户体验权限管理。其中安全管理要求将通过统一的安全管
31、理模块建设。3.1.2.1 权限管理权限管理是信息系统信息安全基础设施的重要组成部分,是信息系统授权管理体系的核心。权限管理功能主要包括:1. 组织机构管理:当前组的修改和查询,对下级组的增加、删除、修改、查询以及对组中用户、角色、资源的维护;2. 用户管理:实现用户的增加、删除、修改、查询、权限查询、用户授权以及更换用户所在组等功能;3. 角色管理:实现角色的增加、删除、修改、查询以及权限的分配、角色许可的维护;4. 资源管理:完成资源的增加、删除、修改、查询以及下级资源的增加、删除、修改、查询,资源的许可维护;5. 菜单管理:实现选中菜单的修改,以及其下级菜单的增加、修改、删除功能;3.1
32、.2.2 统一账号管理对目前各系统账号进行的统一管理,一旦建立账户管理系统之后,以后新建系统将会直接使用此账户管理系统,并通过此系统完成用户身份认证和用户信息查询等功能。统一认证支持证书、密码等方式,原系统密码变更不会影响单点登录。3.1.2.3 单点登录支持 J2EE 和 asp.Net 两种平台下应用系统的单点登录,支持 B/S、C/S 架构的系统集成。当用户一次登录门户后,便可以很方便的登录到其他系统,而无须重复输入用户名和密码,从而真正实现了组织内无障碍漫游。3.1.2.4 应用日志与审计1. 提供审计功能,以日志的形式记录用户操作。通过设置资源的“是否审计”参数可以记录用户对这些敏感
33、资源(用户增加、删除、授权等等)的访问情况,如访问时间、类型、用户、用户组、用户 IP 地址等;2. 提供过期日志备份机制。系统提供按时间、部门、用户、IP 地址、行为等条件对各类日志的查阅功能。通过查看用户的访问日志,对登录平台后的用户操作进行监督、管理,以便出现问题及时解决,保证系统的正常运行;3. 通过授权访问控制功能,只对有权限访问审计信息的角色分配审计相关资源,记录用户对审计信息的操作日志,防止审计信息被人为修改、伪造和删除,保证审计信息的准确性;3.1.2.5 个性化门户提供统一的访问界面、访问形式,实现多个系统之间信息集成,支持每个用户根据自己的喜好定制门户3.1.2.6 在线帮
34、助系统提供每个菜单(功能模块)的在线帮助功能,便于指导用户操作3.1.2.7 通知公告系统提供在线发布公告、任务提醒功能,在系统首页中统一展示公告、任务提醒、提示性消息等3.2 业务功能需求3.2.1 应用识别3.2.1.1 应用识别介绍链路中的每个流量包,均来源于各类应用,或为用户请求应用服务的请求信息,或为应用响应用户情况的反馈信息,如何识别各个流量包背后的应用以及分类,哪些流量包是来源于同一个应用,它们有哪些共同特征或者个性差异,不同的流量包又是通过什么样的算法或者逻辑归结为同一个应用,这是应用识别范畴需要解决的事情。只有通过应用识别,各个流量包才能找到业务载体,也才有流量分析的业务价值
35、,才能实现一系列的应用刻画、用户刻画,才能挖掘应用与应用的关系,才能分析重点应用的数据特征并为之保驾护航,才能为流量的智能调度提供的依据。总而言之,应用识别是网络流量大数据分析与管控的业务基础。3.2.1.2 应用识别价值对每一个流量包识别了来源于哪个应用的基础上,才能更好的开展一系列基于流量的应用分析,并为重点应用的服务和保障工作提供信息支持。3.2.1.3 应用识别模型构建鉴于流量包的数量过于庞大,若要实时监控每条件流量并且进行识别,不但做不到很好的实时效果,也会使得大数据平台的很大部分资源耗费在应用识别动作上,系统可根据大数据平台资源耗费状况,在空闲的时段自动开启识别程序,也可以因特殊情
36、况的需要,由人工启动识别程序。3.2.1.4 应用识别涉及算法1) 对每个流量包进行应用识别;2) 可智能启动识别程序,也可根据个性化要求,设置启动时间与周期;3) 应用识别核心算法,根据流量大小、流量特征、流量发生 IP 等要素,构建应用鉴别规则。4) 对每个识别出来的应用进行入库处理,随即要与已报备应用进行比对,筛选出未报备的应用以供人工确认;3.2.1.5 应用识别输出1) 提供数据列表,展示每个根据流量数据识别出来的应用。2) 提供人工确认信息录入功能,记录与保存人工确认的信息;3) 应用报备数据项可根据部门要求,确定报备信息项,如包括:应用 IP、应用名称、应用范围、应用部署硬件环境
37、、集群方式、用途、与其他应用的明确关系等等。3.2.2 流量展示及异常流量识别3.2.2.1 流量展示介绍流量展示功能是需要准确展示内网中的流量,统计出内网的各个链路的流量中,都有哪些数据和应用、每个应用的流量大小、服务时段、这个应用在为哪些系统和用户在服务,以及详细的流量信息。尤其重要的,是对某些时候异常流量的及时识别,继而可以进行相应的链路调整,防止引起更大的网络故障。3.2.2.2 流量展示价值流量展示为管理者观察和了解链路流量的情况提供直观的方式,便于开展流量的调度和应用服务保障策略的制定。异常流量对网络运行影响很大,对网络突发流量或异常流量的及时识别及调整, 有利于增强网络稳定性,避
38、免网络拥塞。3.2.2.3 流量展示模型构建通过一系列的统计算法,结合时间、地域、次数等维度表现应用、链路和用户三个关注对象的流量情况。异常流量识别有单独的监控展示。3.2.2.4 流量展示涉及算法1) 以应用为主体,以日/周/ 月为周期,统计上行流量/下行流量 /连接次数/连接用户数/连接时常;2) 以用户为主体,以日/周/ 月为周期,统计上行流量/下行流量 /连接次数/连接应用数/连接时长;3) 以链路为主体,以日/周/ 月为周期,统计上行流量/下行流量 /承载应用个数/承载用户个数;3.2.2.5 流量展示输出1) 全国流量分布图,展示公安部与各地间的数量值;2) 钻取每条链路、表现出该
39、数量值下各个时间点的数据量值;3) 钻取每条链路、表现出该数量值下各类应用的占比;4) 钻取每条链路、表现出给数量值下流量排名 TOP10 的应用名称。5) 实现前一天与 7 日均线的比较图表。6) 异常流量相关信息展示。3.2.3 流量智能调度 3.2.3.1 流量智能调度介绍 随着信息化进程的推进,整个网络流量及内容都呈现了爆发式的增长。目前网络中存在了大量的应用,覆盖各个岗位。但部分区域出现了流量拥塞和网络服务质量下降的情况。大量流量导致带宽资源不足,但是这种带宽不足表现为相对忙时带宽不足和非忙时的带宽空闲并存。如何解决这类问题,目前的主要手段是链路扩容,但当我们带宽从 10M,扩到 1
40、00M,扩到 1G,甚至扩到10G,网络中依然出现忙时拥塞等带宽资源不足的情况。通过大数据分析技平台的建设,给我们对这个问题带来了新的解决思路,可以根据网络流量的预测分析结果对网络资源进行有效的规划,针对内网中大量潮汐类应用,我们就可以规划一些数据备份类、系统更新类应用(数据量传输无白天或者夜间的限制) ,与潮汐类应用错峰使用,安排在晚上空闲时段,提升现有带宽利用率,在不增加带宽的基础上提高各类应用的网络传输质量,避免网络拥塞。还可以通过网络资源趋势分析,可以预测网络的流量增长规模,预测应用增长趋势,指导后续整体网络规划。流量智能调度,是指针对网络中由于网络流量不均匀占用,使得应用服务质量下降
41、的问题,能够通过网络拥塞点预测,进行智能调度,提高网络资源使用率,优化应用服务质量。流量智能调度,支持:1) 离线分析指定链路或指定应用(某一个或某一类)的历史数据,得到链路的拥塞模型,能够通过该模型进行拥塞点的预测,根据预测结果进行通知,或自动下发控制策略。 (预测模型可根据实际 结果进行模型自身的修正。 )2) 实时监控指定链路或指定应用的(某一个或某一类)网络情况,当检测到拥塞后,下发网络控制策略。这一功能需要后期项目增加相应的硬件设备后才能提供。3.2.3.2 流量智能调度价值 1) 通过网络资源趋势预测分析,提升现有带宽利用率,在不增加带宽的基础上提高各类应用的网络传输质量,避免网络
42、拥塞。2) 通过网络资源趋势预测分析,可以预测网络的流量增长规模,预测应用增长规模,指导后续整体网络规划。3.2.3.3 流量智能调度模型构建 1. 流量调度涉及的数据特征有:1) 日期2) 源 IP 地址3) 目的 IP 地址4) 源端口号5) 目的端口号6) 协议类型7) 时间区间 T 内的流入流量8) 时间区间 T 内的流出流量9) 时间区间 T 内最大速率10) 时间区间 T 内最小速率11) 时间区间 T 内平均速率12) 时间区间 T 内的总访问人数13) 时间区间 T 内的总访问次数14) 每天繁忙时间区间15) 时间区间 T 内的总访问时延16) 时间区间 T 内网关超时的次数
43、17) 目的地域标识18) 时间区间 T 内的服务质量 QoE19) 时间区间 T 内的输入包个数20) 时间区间 T 内的输出包个数21) 时间区间 T 内的输入字节数22) 时间区间 T 内的输出字节数 2. 将一天的网络流量数据,按照时间区间 T 的定义( 例如 5 分钟) ,划分为多个时间段,分别计算每个时间区间段内的数据特征,例如计算 08:00 到 08:05 内的流入流量、流出流量、最大速率、最小速率、平均速率、总访问人数、总访问次数等。3. 将流量调度的数据特征,以“日期,特征 1,特征 2,特征 N”的形式表示,其中,每行表示某天内的网络流量数据记录,对于无时间属性的特征,一
44、行只有一个,对于具有时间属性的特征,每个时间区间一个;例如“源端口号”一行只有 1 个;“平均速率”按照 5 分钟划分,一天有 288 个。4. 将多天网络流量的数据特征,按照“日期,特征 1,特征 2,特征 N”的形式表示为多条文本,并通过数据归一化处理为数值型矩阵。5. 离线分析指定链路或指定应用(某一个或某一类)的历史数据,得到链路/应用的拥塞模型,能够通过该模型进行拥塞点的预测,根据预测结果进行通知,或自动下发控制策略。 (预测模型可根据实际 结果进行模型自身的修正。 )6. 在线实时监控指定链路或指定应用的(某一个或某一类)网络情况,当检测到拥塞后,下发控制策略。3.2.3.4 流量
45、智能调度涉及算法 1) 时间序列2) SVM3.2.3.5 流量智能调度模型输出 流量智能调度模型的输出结果为:1) 时间区间 T1 网络参数+ 时间区间 T2 网络参数+时间区间 Tn 网络参数2) 其中,网络参数为,建模过程中选择的与时间属性相关的数据特征,例如:流入流量、流出流量、最大速率、最小速率、平均速率、总访问人数、总访问次数。3) 当需要预测未来某天某个时刻的网络拥塞点时,只需要输入指定时刻所在的时间区间 T。3.2.4 用户画像 用户画像,是大数据时代个性化技术的典型代表,相比传统的问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一
46、步精准、快速地分析用户行为习惯、用户偏好等重要信息,提供了足够的数据基础。用户画像(UserProfile) ,完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。3.2.4.1 用户画像介绍 所谓用户画像,就是通过关键词对用户特征进行描述,例如:男,31 岁,已婚,网络技术,运维,云搜。这样一串描述就是用户画像的典型案例。如果用一句话来描述,即:用户信息标签化。以互联网为例,如图 3.8所示:随着大数据时代到来,信息呈井喷式增长,如何快速准确的从海量数据中挖掘出每个用户的高维特征标签,如同海里捞针般艰难。大数据具有以下 4V 特征:1) Volume:海量的数据规模(TB -PB-EB-ZB) ,尤其是非结构化数据的超大规模增长;2) Velocity:快速的数据流转和动态的数据体系, 数据增长快,实时分析而非事后分析 ;3) Variety:多样的数据类型,文件、电子邮件和视频等非结构化信息约占未来十年数据产生量的 90% ;