1、联通“大数据”公安情报应用技术方案第 1 页 共 48 页联通“大数据”公安情报应用技术方案中国联通贵州省分公司2015年11月联通“大数据”公安情报应用技术方案第 2 页 共 48 页目录第 1 章 概述 .51.1 项目背景 .51.2 项目建设目标 .51.3 项目建设内容 .6第 2 章 系统总体架构 .6第 3 章 系统网络及硬件环境 .7第 4 章 数据能力开发 .84.1 联通总部大数据平台能力介绍 .84.2 数据采集 .94.2.1 实时数据采集 .94.2.2 定时数据采集 .94.2.3 网页数据(非结构化)数据采集 .94.3 实时数据加工和处理 .104.3.1 Sp
2、ark 平台 .104.3.2 Spark Streaming 实时数据加工 .104.4 定时数据存储及加工 .114.4.1 数据存储策略 .114.4.2 Hadoop 存储与加工 .124.4.3 Oracle 数据展现 .17联通“大数据”公安情报应用技术方案第 3 页 共 48 页第 5 章 应用功能开发 .185.1 数据查询 .185.1.1 号码位置查询 .185.1.2 详单查询模块 .195.1.3 号码轨迹查询模块 .205.1.4 基站信息查询 .215.1.5 机主信息查询模块 .225.2 数据推送 .235.2.1 用户基本信息推送 .235.2.2 手机标记信
3、息推送 .235.2.3 数据接口 .245.3 监控告警 .245.3.1 标记管理 .245.3.2 号码位置告警 .255.4 统计分析 .255.4.1 区域热力 .255.4.2 关键词热力 .265.5 数据分析 .275.5.1 号码碰撞分析 .275.5.2 联系人分析 .275.5.3 关系人分析 .285.5.4 外来人员分析 .29联通“大数据”公安情报应用技术方案第 4 页 共 48 页5.5.5 网上异动分析 .30第 6 章 项目实施 .316.1 人员组织安排 .316.2 项目实施步骤 .326.2.1 平台搭建 .326.2.2 功能开发 .336.2.3 应
4、用及优化 .336.3 项目投入估算 .34附件 1. 大数据平台相关技术原理说明 .341. HADOOP基础平台 .341.1. HDFS.341.2. Yarn.361.3. Zookeeper.372. HBASE高速即时查询 .382.1. Hbase 基础组件 .382.2. Hbase 封装组件 .403. SPARK实时数据处理 .42附件 2. 可对外提供数据合作的数据 .431. 用户位置数据 .432. 用户特征数据(标签) .443. 网上搜索关键词数据 .46联通“大数据”公安情报应用技术方案第 5 页 共 48 页联通“大数据”公安情报应用技术方案第 6 页 共 4
5、8 页第 1 章 概述1.1 项目背景2014 年中国联通集团大数据平台建设完成,平台具备 2000 个计算节点和20PB 数据量,形成了全国性的数据中心,能够基于全国用户数据加工数据应用产品。2015 年贵州公安厅计划将大数据应用在数据查询、预警分析、综合分析、治安管理、指挥调度等公安情报应用上。为此双方将联通公司的大数据进行开发利用,为公安情报应用服务。1.2 项目建设目标建设联通“大数据”公安情报应用平台,服务贵州公安情报应用,具体包括八类公安情报应用需求: 电子地图、人员布控:划定某一区域实时查询号码个数和明细,调取通话记录;当特定号码进出某一区域进行实时预警,并显示号码活动轨迹。 预
6、警分析(涉恐类):设定敏感号码关注,对号码进入/离开预定区域进行预警;设定涉恐敏感词、网页、APP,对发送、访问、使用涉恐敏感词、网页、APP 的号码进行预警。 预警分析(涉稳类):对号码进行标签管理,进入限定区域预警;群体性事件人员分别热力图;网上串联异动分析。 综合分析(案件侦查类):对前科人员号码进行标签管理,进入某个地市预警;查询犯罪嫌疑人上网数据、宽带数据、上网行为习惯、网上关系人等;对上网详单、短信详单文本进行关键字过滤;找出在逃人员的各种关系人数据; 综合分析(个案分析):对人员和区域标记管理;号码位置查询、号码碰撞分析,目标号码进出固定区域告警;检索异常人群关键词;分析出目标号
7、码使用的新手机号码; 服务治安管理:区域内人员热力分布;外来人员信息获取。 服务指挥调度:警员手机号的定位,群发信息。 战略分析:长期上网行为分析;网上特定信息分析;全国话单调取服务;群体“迁徙”分析。联通“大数据”公安情报应用技术方案第 7 页 共 48 页1.3 项目建设内容利用中国联通全国大数据优势,搭建联通“大数据”公安情报应用平台,服务贵州公安情报应用。 平台及网络环境搭建:建设大数据应用平台,具备数据计算与存储环境,打通与用户单位的网络连接。 数据采集:具备对移动网络信令、详单、业务日志等数据采集功能。 数据实时计算:开发对用户位置和轨迹、区域热力、实时告警等功能的数据加工处理能力
8、。 数据定时加工存储:实现通信行为、通信内容、号码轨迹、用户特征的数据存储和高速查询;实现分析模型、统计汇总、应用模型的开发;为应用功能加工所需数据。 应用功能开发:开发数据查询、数据推送、监控告警、统计分析、数据分析应用功能。第 2 章 系统总体架构联通“大数据”公安情报应用技术方案第 8 页 共 48 页系统总体架构分为三层架构,硬件平台、数据能力、应用功能。系统硬件平台位于联通网络,服务器由 X86 服务组成,用于搭建 Hadoop 集群环境和Oracle 数据环境。网络交换机统一采用万兆交换机。数据能力由数据采集、实时数据加工、定时数据存储加工组成。应用功能由数据查询、数据推送、监控告
9、警、统计分析、数据分析五大模块组成。第 3 章 系统网络及硬件环境“大数据”公安情报应用平台位于联通网络,公安用户通过专线访问大数联通“大数据”公安情报应用技术方案第 9 页 共 48 页据应用平台。(1)服务器统一由 X86 服务组成,X86 服务器硬件如下: 2 路*8 核双线程 CPU,内存 128G,硬盘 16TB,网卡 6 千兆;(2)大数据应用平台硬件组成: Hadoop 集群 20 台 X86 服务器; Speak 实时计算平台 8 台 X86 服务器; 传统 Oracle 平台 2 台 X86 服务器; FTP 接口机 1 台 X86 服务器; WEB 应用服务 2 台 X86
10、 服务器; ETL 流程控制 1 台 X86 服务器; 万兆交换机 3 台;第 4 章 数据能力开发4.1 联通总部大数据平台能力介绍(一)总部大数据系统每日采集并处理全国 31 省生产数据。数据量 B/M 域 170多亿条,O 域 2700 多亿条,其中涉及数据源: BSS 域 18 个总部横向系统,包括集中结算,集中渠道等; BSS 域省经分系统将 31 个不同版本的 BSS 系统按照统一接口规范加工上传总部。 MSS 域 13 个总部集中系统,包括 ERP 核心系统等。(二)上线设备整体配备存储容量 6.78PB,X86 存储服务器共 1301 台,分别搭建了 Greenplum 和 H
11、adoop 环境。Oracle 数据库:3*2 节点 RAC 数据库。联通“大数据”公安情报应用技术方案第 10 页 共 48 页4.2 数据采集4.2.1 实时数据采集(一)采集内容采集内容包括手机信令数据、手机短信日志。1、手机信令数据:MC 口手机信令采集数据包含手机号码、基站 LAC、基站CELLID、触发时间字段。2、手机短信日志:从短信平台手机短信发送日志采集数据包含手机号码、发送时间、被叫号码、短信内容字段。(二)采集方式1、手机信令数据:通过文件接口联机采集,即 MC 口系统将信令数据转为 TXT文本,每 5 分钟接口生成一次接口文件,FTP 到接口机上。2、手机短信日志:通过
12、文件接口联机采集。短信平台从短信发送日志中生成接口数据文件,FTP 到接口机上。4.2.2 定时数据采集(一)采集内容1、详单数据:移动网语音详单、流量详单、短信详单。 语音详单采集数据内容包括电话号码、主/被叫号码、呼叫时间、呼叫时长、长途类型、漫游类型、基站 LAC 和 ID。 流量详单采集数据内容包括电话号码、通信时间、通信时长、上行流量、下行流量、访问 URL 地址、基站 LAC 和 ID。 短信详单采集数据内容包括电话号码、发送时间、接收号码。2、用户信息:包括用户基本信息,用户标签。 用户基本信息有用户号码、姓名、证件号码、联系地址、性别、年龄。 用户标签包括用户业务标签和互联网标签。4.2.3 网页数据(非结构化)数据采集网页数据通过网络爬虫采集数据。网络爬虫(又被称为网页蜘蛛,网络机器人) ,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。爬虫