1、舆情卫士监测系统技术方案中国移动通信集团安徽省有限公司安庆分公司2017 年 5 月目录1 总体需求 .31.1 建设目标 .31.2 功能需求 .31.2.1 互联网海量信息采集子系统 .41.2.2 海量信息存储子系统 .41.2.3 海量信息检索子系统 .51.2.4 互联网云数据分析处理子系统 .51.3 性能需求 .61.4 其他需求 .62 技术方案 .72.1 翼腾云计算概述 .72.2 总体设计概述 .92.3 系统架构图 .112.4 业务流程图 .132.5 数据中心简介 .142.6.1 海量互联网信息采集子系统 .162.6.1.1 通用采集技术 .162.6.1.2
2、互联网信息采集 .182.6.2 海量信息检索子系统 .192.6.3 大数据分析处理子系统 .212.6.3.1 信息及数据处理 .222.6.3.2 舆情及敏感信息分析 .242.6.4 用户权限管理 .262.6.5 安全子系统 .272.6.6 手机舆情 .281 总体需求1.1 建设目标建设*舆情监测系统,其实质在于利用信息化技术,建立专业的网络信息监测与管理平台,及时、全面、准确收集、分析互联网上一切与教育领域所相关的信息,进而做好研判和处置工作,健全制度、完善机制,及时了解把握情况,准确判断舆情发展趋势,掌握工作的主动权。 建设*舆网络舆情监测系统,以达到舆情监测与分析应对工作全
3、面覆盖、有序管理、多方联动的效果。提高师范大学网络舆情突发事件的应急处置水平,明确网络舆情突发事件预防、预警、应对的程序,使得可及时、准确发布有关信息,澄清事实,引导舆论,妥善处理。1.2 功能需求大数据时代,面对海量的互联网数据,要充分挖掘并分析出有用的舆情信息,单纯靠小规模的舆情系统软件已不足以满足要求。必须要能够利用大数据技术,建立起海量数据中心级别的舆情数据中心,才可以支撑越来越庞大的舆情管理与应用。数据中心建设应广泛采用集群应用、分布式数据存储、分布式计算等云技术。可提供PB 级的海量数据存储能力,能够利用云数据分析技术进行深度比对、关联、分析和挖掘,实现网上信息的快速发现 。 1.
4、2.1互联网海量信息采集子系统网络媒体形式全,可以对各类网络媒体进行监测:1)门户网站:系统可采集以媒体发布为主的新闻网站的信息;2)论坛:各种形式的 BBS、贴吧、论坛、社区;3)博客:各博客网站的博客信息;4)微博:各微博网站信息监测;5)电子报:各类报纸的电子报的信息监测;6)问答:对问答类网站的采集;7)视频:对视频网站文字信息的采集;8)WAP:对 WAP 网站信息的采集;9)搜索引擎:对搜索引擎信息的聚合;10)微信公众账号采集。1.2.2 海量信息存储子系统实现海量采集文章数据(高并发)存储和相关的查询统计业务(如历史文章查询),并解决存储服务的长期运营的高可用性问题 。1) 可
5、存贮至少三个月的历史数据;2) 可通过统一的系统界面监测所有服务器的运行状况,及时发现并处理出现的任何状况;3) 具有完整的容灾备份方案。1.2.3海量信息检索子系统采用分布式并行计算搜索框架,能对 T 级以上索引提供 7*24 小时搜索服务。采用群集服务多服务器同时搜索数据,有效提高检索速度,可以达到每秒处理 100 万次的搜索速度。1.2.4互联网云数据分析处理子系统信息及数据处理主要是针对采集入库后的数据进行整理、处理。主要技术和功能包括:(1)漏斗式过滤技术:采用漏斗式多重过滤技术,逐层过滤掉无关干扰信息,呈现给用户精准的舆情信息和热点资讯。(2)中文分词:采用基于自然语言处理技术的中
6、文分词技术,对全文做文本处理,为舆情分类、专题聚类、自动摘要、语义分析、检索等提供基础。(3)要素分析对所有采集信息,在抽取标题、来源网站、来源频道、发布人、发布时间、链接、正文、图片等元素后,形成结构化数据存储于舆情库中。(4)数据挖掘:关键词是本系统筛选舆情信息的主要规则,此外还采用数据挖掘措施分析出重要舆情信息和有价值的敏感信息,例如:1)分析出舆情高发网站及频道;2)分析出舆情高发人群;3)推荐网民关注度高的舆情;4)筛选新词、热门话题;5)关联性分析:采用智能关联技术将与一条新闻相关的新闻、论坛评论、博客评论等信息关联到一起,帮助用户多方位地了解新闻事件的进展和其他报道情况,以及相关
7、的网民评论等信息,全面地掌握各种相关信息。 1.3 性能需求1) 常规监测信息源数量 3 万个以上;2) 日均采集信息量 300 万条以上;3) 信息采集效率在 30 分钟以内;4) 数据中心数据可提供 PC 端、移动端等不同方式的信息检索,检索效率在 5 秒钟以内;1.4 其他需求1) 可针对客户要求给出详细的硬件配置方案;2) 基于数据中心的监测平台系统架构图;并详细描述所采用的技术及方法等。3) 系统部署的拓扑图;4) 可以统一管理各服务器的运行并监测其运行状况;2 技术方案2.1 翼腾云计算概述“云计算”是一个很时尚的概念,它既不是一种技术,也不是一种理论,而是一种商业模式的体现方式。
8、 “计算与数据”跷跷板的平衡已发生变化,即已经到“移动计算要比移动数据要便宜的多(Moving computation is cheaper than moving data) ”,透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务,云计算的关键技术:1. 虚拟化技术虚拟化技术是指计算元件在虚拟的基础上而不是真实的基础上运行,它可以扩大硬件的容量,简化软件的重新配置过程,减少软件虚拟机相关开销和支持更广泛的操作系统方面。虚拟化技术主要应用在 CPU、操作系统、服务器等多个方面,是提高服务效率的最佳解决方案, 以 PaaS 为
9、核心来构建和运营新一代的 SaaS 应用,通过与移动运营商合作共建 SaaS 舆情应用系统,解决众多中小企业舆情需求,OpenStack 提供了比较成熟的 PaaS 解决方案。2. 分布式海量数据存储云计算系统由大量服务器组成,同时为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式(集群计算、数据冗余和分布式存储)保证数据的可靠性。冗余的方式通过任务分解和集群,用低配机器替代超级计算机的性能来保证低成本,这种方式保证分布式数据的高可用、高可靠和经济性,即为同一份数据存储多个副本。使用的数据存储系统是 Hadoop 团队开发的GFS 的开源实现 HDFS。3. 海量数据
10、管理技术云计算需要对分布的、海量的数据进行处理、分析,因此,数据管理技术必需能够高效的管理大量的数据。使用开源 NoSql 数据库 Mongodb 和 Cassandra 解决海量文章的存储、检索。4. 编程方式云计算提供了分布式的计算模式,采用了一种思想简洁的分布式并行编程模型 MapReduce。Map Reduce 是一种编程模型和任务调度模型。主要用于数据集的并行运算和并行任务的调度处理,基于 Hadoop 集群,使用 Map-Reduce 解决离线数据的挖掘。另外针对流式实时运算采用并行编程模型 Spout-Bolt,基于开源的 JStorm集群实现实时文本挖掘。5. 云计算平台管理
11、技术云计算资源规模庞大,服务器数量众多并分布在不同的地点,同时运行着数百种应用,如何有效的管理这些服务器,保证整个系统提供不间断的服务是巨大的挑战。采用 Nagios 对众多集群进行监控,使用 SALT 解决大规模服务器的自动化管理。翼腾数据中心借助于上述 5 个方面的云计算技术,解决了互联网海量信息的实时检索、海量分析、推荐挖掘等问题,依托于全国众多数据中心,为多个行业、多个地域的 SaaS 舆情监测平台提供数据支撑,为众多企事业单位提供优质的中文信息监测服务。翼腾已建成的数据中心使用依托阿里云云平台,每天采集互联网 500W 以上的海量文章信息,每个数据中心的出口带宽达到10G,每天新增
12、10T 以上数据文件,使用分布式文件系统、分布式数据库存储索引、文章等相关信息,使用软件方式解决了数据可靠性问题,翼腾搜索引擎实时的返回各个 SaaS 平台的检索需求,能够支持上万并发请求。另外通过实时推送技术,每天推送到客户端的信息量能够达到上百万。2.2 总体设计概述舆情卫士监测平台是基于大数据平台行业解决方案面向服务的整体解决方案,海量数据大都为非结构化的文本数据,使用NoSql 技术和 Hadoop 架构进行有效结合集成,实现在采集、存储、分析、挖掘、检索、展示等方面的具体要求,并针对某个行业做深入开发,以服务的方式提供数据产品。大数据平台是在大数据环境下,为满足数据处理要求而倾力打造
13、的一款具有革命性架构设计的平台级产品。大数据管理系统由服务器集群、大数据处理软件、情报产品三部分组成,系统支持 PB 级海量数据管理,采用高可靠架构设计,兼容 Hadoop 标准,自有海量全文检索引擎系统,支持水平扩展。大数处理软件是一款完全分布式、多副本机制、数据分片的集群系统,不存在单点故障或性能瓶颈。“舆情卫士监测平台”可以分为两个部分来建设。一是互联网信息数据中心平台。平台完成各类海量信息的采集、存储、检索等功能,建设完成后可以供不同用户进行舆情信息巡查。二是基于数据中心平台的舆情应用平台的建设,包括 PC 端及移动终端的各种舆情管理与应用。互联网信息数据中心负责从互联网各类网站进行信
14、息采集,同时还支持其他各种信息的收集和存储,比如微信公众账号所发布信息等信息。数据中心大量进行数据采集、处理和存储,为满足不同用户及业务应用,采用分布式技术进行规划信息检索服务,提高数据检索效率。不同用户应用平台的信息都来源于数据中心,基于这些数据建立自己的应用平台,本建设实现了中心数据向多用户开放,为将来不同用户根据实际需求定制本用户的信息平台提供数据支撑和平台基础。舆情卫士监测平台同样是采用大数据、移动互联网等新技术进行建设,一可以保证整体舆情工作效率,同时还为未来应用留下了发展空间。舆情卫士监测平台是一个整体平台,在平台使用的基础上,基于大数据技术进行了更深一步的数据分析和挖掘。舆情卫士平台可提供 PB 级的海量数据存储能力,能够利用云数