大数据平台方案设计.doc

上传人:gs****r 文档编号:1481540 上传时间:2019-03-03 格式:DOC 页数:155 大小:22.97MB
下载 相关 举报
大数据平台方案设计.doc_第1页
第1页 / 共155页
大数据平台方案设计.doc_第2页
第2页 / 共155页
大数据平台方案设计.doc_第3页
第3页 / 共155页
大数据平台方案设计.doc_第4页
第4页 / 共155页
大数据平台方案设计.doc_第5页
第5页 / 共155页
点击查看更多>>
资源描述

1、1项目技术方案大数据平台方案设计1.1 需求分析1.1.1 采购范围与基本要求建设 XX 高新区开发区智慧园区的人口库(12 万居民) 、法人库(1200 家企业)、地理信息库(已建设区域 35 平方公里的 3 维电子地图、未建设区域 80 平方公里的航拍电子地图)、视频库(1000 个摄像点)、大数据处理平台、数据管理服务平台。1.1.2 建设内容要求1.1.2.1 人口库人口库的基本信息以公安部门户籍和暂住人口信息为基础,整合人社、计生、民政、教育等多个部门信息资源,建设统一规范的人口库和人口信息服务平台。(1)人口库的内容目录序号 信息目录(一级) 信息目录(二级) 可能的信息源单位1

2、人员信息(常驻)2 人员信息(暂住)3 户籍成员信息4人口基本信息死亡信息公安局5 驾驶人员信息6 机动车信息7人员车辆信息电动车信息公安局(交警系统)8 房主信息9社居民区服务信息房屋变动信息房管局、村(居)委会10 党员信息11 培养党员信息12 党员流入信息13社区党建信息党员流出信息组织人社局、村(居)委会14 准生证信息15 婚前检查信息16 孕前检查信息17 婚育证信息18 节育手术信息19社居民区服务信息计生处罚信息社会发展局2序号 信息目录 (一级) 信息目录(二级) 可能的信息源单位20 社区卫生服务机构信息21 医疗机构信息22 医疗资源信息23卫生信息卫生许可信息社会发展

3、局24 社会组织信息25 区域地名信息26 最低保障收入人员信息社会发展局27民政信息精准扶贫对象信息 村居管理委员会28 单位信息29社保基本信息参保人员信息30 退休待遇信息31养老保险信息转移人员信息32 失业信息 失业登记和失业保险信息33城镇职工基本医疗保险账户信息34 门慢信息35医疗信息定点医疗机构和定点零售药店信息36 伤残认定信息37 劳动能力鉴定信息38工伤信息工伤待遇信息组织人社局(2)人口信息服务平台功能需求数据库层:能够安全存储人口库的内容目录中列出的信息内容,对居民、企业、政府提供安全的人口信息服务,为人口大数据分析提供基本数据源。应用支撑层:包括门户框架、数据库维

4、护、报表组件、数据挖掘等,用于为应用层提供应用支撑。数据挖掘提供常见的数据分析/挖掘工具、通用算法,利用大数据平台的计算能力进行分析,对人口库数据进行数据挖掘与发现,提供有价值的分析结果。应用层:包括人口信息服务、人口专题分析、公共服务等。1.1.2.2 法人库法人库以工商部门的企业信息为基础,整合各参建部门系统中的法人信息,如机构代码、机构名称、机构类型、经济行业、业务经营范围、机构地址、法定代表人等字段信息,建成标识统一、结构科学、查询快捷、动态管理的法人信息库。制定与交换平台对应的相关标准、制度和规范管理体系,实现工商局、地税局、国税3局、质量技术监督局等法人数据相关业务部门之间的网络互

5、联和业务数据的实时交换与应用。(1)法人库的内容目录序号 信息目录(一级) 信息目录(二级) 可能的信息源单位1 股东(投资者)信息2 法人信息3企业基本信息地址与联系信息工商质监局,企业4 工商登记信息5 工商变更信息6 工商注销信息7工商注册信息工商吊销信息工商质监局8 税务登记信息9 税务注销信息10 税务登记验换证信息11税务信息企业发票信息税务局12 组织架构13 发展战略14 品牌15 产品与服务信息16 人力资源信息17 高端技术和设备18 财务报表19 资质信息20 信用信息21 荣誉信息22 文化23企业经营信息违规处罚等不良信息企业(2)法人信息服务平台功能需求数据库层:能

6、够安全存储法人库的内容目录中列出的信息内容,对居民、企业、政府提供安全的法人信息服务,为法人大数据分析提供基本数据源。应用支撑层:包括门户框架、数据库维护、统计与报表组件、数据挖掘等,用于为应用层提供应用支撑。数据挖掘提供常见的数据分析/挖掘工具、通用算法,利用大数据平台的计算能力进行分析,对法人库数据进行数据挖掘与发现,提供有价值的分析结果。应用层:包括法人信息服务、法人专题分析、公共服务等。41.1.2.3 地理信息库以国土资源部空间地理数据框架作为基础,采用分布式存储并行计算的技术思路统一搭建地理信息库,再与智慧园区建设涉及的各类专题图层进行融合、关联,实现统一共享,逐渐形成 XX 高新

7、区权威、丰富的地理信息数据库。要求根据不同信息资源类别,提供数据库表结构设计。地理信息库维护文件主要提供地图基本操作、地图测量、图层控制、空间分析等信息服务功能。地理信息库配置一套高性能 GIS 工具软件,基于高性能云 GIS 平台搭建,实现空间数据的统一管理,完成空间数据检查、转换、入库、管理、制图显示、服务发布等一系列空间数据分析处理功能。(1)地理信息库的内容目录序号 信息目录(一级) 信息目录(二级) 可能的信息源单位三维电子地图:已建设区域 30 平方公里1 电子地图数据 航拍电子地图:未建设区域 60 平方公里国土资源部、中标单位测量2 地理实体数据 建筑、道路、水系、绿地、农田等

8、国土资源部、中标单位测量3 三维模型数据已建设区域 30 平方公里,分等级实现重点城区精细三维模型数据和其它地区简易模型数据中标单位测量、建设4 城市部件数据路灯、交通灯、屏显、导示牌、标志性行道树、线缆、地下管网等城管等部门5 规划数据 规划用地数据 规划局6 POI 数据 企业(项目)数据 规划局、办公室等(2)地理信息库管理平台功能需求数据处理:格式转换、坐标转换、属性编辑、数据裁切。数据质检:矢量数据检查、栅格数据检查、三维模型数据检查、元数据检查。入库更新:矢量数据入库、影像数据入库、三维模型数据入库、元数据入库。数据输出:矢量数据提取、栅格数据提取。查询浏览:地图浏览、数据加载、S

9、QL 查询、空间查询、数据对比浏览、元数据查询。历史数据管理:历史版本数据比较、版本数据提取。系统管理:权限管理、日志管理、备份恢复。51.1.2.4 视频库(1)视频库的内容目录序号 信息目录(一级) 信息目录(二级) 可能的信息源单位视频目录1 视频 视频文件视频监控系统数字摄像装置2 视频特征 视频特征文件(2)视频库管理平台功能需求与视频监控系统的接口、视频入库、视频目录管理、视频文件管理、视频特征文件生成、视频检索、视频异常发现等。1.1.2.5 大数据处理平台(1)大数据基础平台提供基础管控、基础服务的大数据基础支撑功能。大数据基础平台要充分利用目前先进的大数据处理技术,保证系统技

10、术的前瞻性和先进性。大数据基础平台要求提供海量数据的采集、存储、计算、接口服务能力;需要满足海量、异构的大数据的存储、共享、开放及分析挖掘方面的要求;需要采用主流的大数据的技术架构,全面满足结构化数据、半构化数据及非结构化数据的存储、处理及计算要求;提供多种数据采集工具,支持多种格式数据采集;提供接口服务,供二次开发应用等。大数据基础平台要求能够管理大数据中心集群的物理服务器资源,控制分布式程序运行,隐藏下层故障恢复和数据冗余等细节,为大数据处理平台提供统一的管理、监控、维护等日常管理功能。主要包括:资源管理、安全管理、运维管理、集群部署及监控、任务调度等功能,同时配备友好的管理界面。数据采集

11、要求大数据处理平台数据主要来自数据资源中心,包括基础库(人口库、法人库、地理信息库、视频库)数据、主题库(业务数据库)数据和互联网数据,同时也支持其他外部系统数据来源。数据采集系统要求提供多种数据采集工具,支持多种格式数据采集。对于结构化数据、非结构化数据以及网络数据采用不同的采集工具进行数据导入。支持多种数据采集方式,比如 ETL、FTP、文件导入导出、关系数据库数据等。分布式存储要求平台能够根据结构化数据和非结构数据的不同特点,分别提供数据仓库和分布6式列式数据库存储服务,底层支撑技术支持分布式文件系统,所有的数据可以形成多份副本均匀分布存储在各个服务节点的存储上,保证数据可靠性和提高读写

12、效率。大数据计算引擎要求离线计算引擎(Mapreduce):离线分布式计算作为一个海量结构化数据离线处理与分析服务,着力于实时性要求不高的海量数据(TB/PB 级别)离线处理。支持并行化、容错、数据分布、负载均衡。离线计算引擎需要具有 PB 级的存储处理能力和计算吞吐能力,支持多应用多实例并发同时计算并隔离应用数据和程序的能力。支持 Mapreduce 等批量数据分布式计算框架。支持分布式内存计算框架。支持作业查询预处理调度算法,可根据业务属性对指定的多个队列按照优先级的配置进行任务的提交。具备高可靠性,支持主控节点双机,避免单点故障不可恢复。具备高度可扩展,可动态增加/削减计算节点,真正实现

13、弹性计算。 支持离线计算组件界面配置化,可以对配置进行查看和修改,并立刻生效。支持离线计算组件性能指标界面可视化,通过界面实时监控组件性能指标。支持多租户权限管理能力,支持不同用户之间的资源隔离。支持多应用多实例并发同时计算并隔离应用数据和程序的能力。内存计算引擎(Spark):基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。由于中间输出和结果可以保存在内存中,从而不再需要读写分布式文件系统,能更好地适用于数据挖掘与机器学习等需要迭代的算法。支持作业查询预处理调度算法,可以根据业务属性对指定的多个队列按照优先级的配置进行任务的提交。支持审计日志可查询,在管理运维的界面中可以进行

14、内存计算引擎日志的查询。支持相关存储目录规整,对内存计算引擎的数据目录进行规整,修改默认配置,并提供界面上的修改配置的地方。支持配置界面化,能够在管理运维界面上对内存计算引擎的配置进行查看和修7改,并能够同步到前台立刻生效。支持通过界面展示性能指标,能够在界面上查看内存计算引擎的性能指标数据。支持 on Yarn 等方式,在管理运维界面上安装服务,可以在安装的时候,选择On Yarn 等的方式安装。支持内存计算引擎的 Master 的 HA 等,可以对内存计算引擎的 master 角色进行 HA 等部署,以保证该节点的高可用性。实时计算引擎(例如 spark streaming、Storm):

15、实时分布式计算需要提供大吞吐量的实时流式数据处理。要求保证高可靠性的前提下让数据处理更加实时,具备低延时、容错和分布计算特性。采用分布式计算框架提供实时计算服务,可按需扩容。支持高并发低延时的数据处理。计算引擎:支持 SPARK STREAMING 等实时计算框架、STORM 分布式流式计算框架两种计算框架功能。支持对流数据的处理,数据可以建立关联处理。高效处理数据:支持消息的分流、合流、聚合的消息处理。数据按业务分析,可支持不同的应用接入,并对应不同的应用输出计算结果。事件监测:对数据处理低延时,满足事件监控等实时性要求很高的场景。具备高可靠性,支持主控节点双机,具备自动容错能力,避免单点故

16、障不可恢复。支持实时计算组件界面配置化,可以对配置进行查看和修改,配置修改立刻生效。支持实时计算组件性能指标界面可视化,通过界面实时监控实时计算组件性能指标。全文搜索引擎(例如 solr)提供丰富的查询语言,同时实现可配置、可扩展并对查询性能进行优化,提供一个完善的功能管理界面。可以实现集中式的配置信息、自动容错、查询时自动负载均衡、自动分发的索引和索引分片和事务日志等多种特色功能。可以对搜索引擎集合进行快照,可以周期、定时创建集合快照,对索引数据进行备份。8提供搜索引擎数据切换自动化工具,一键式操作实现搜索引擎数据从一个集群切换到另外一个集群,安全可靠。提供搜索引擎节点扩容数据重分布自动化工

17、具,搜索引擎节点扩容后数据均匀的重分布到新增节点上,负载均匀的分担到各节点上。支持搜索引擎服务自动拉起功能,提高可靠性。除管理平台界面手工停止服务之外的异常服务停止后都会自动拉起,保证服务连续可用。资源管理(例如 yarn)资源管理要求能够实现调度和分配集群的内存和计算等资源给上层应用和服务,能够管理运行在集群节点上的任务的生命周期和资源使用,提供静态资源池和动态资源池功能。在多用户运行环境中,能够支持计算额度和访问控制,作业优先级和资源抢占,达到在保障公平的前提下,有效地共享集群资源。支持 VIP 队列管理,支持根据业务需要指定作业在指定的计算节点上运行,隔离重点任务和普通任务,保障重点任务

18、的物理资源。要求给出详细的设计方案。资源管理能够面向海量数据处理和大规模计算类型的复杂应用提供统一的资源管理和调度。提供通用的并行计算框架,要求兼容批量分布式计算、内存分布式计算、流式计算等多种编程模式。具备高可扩展性,支持作业定点调度,支持优先级高的作业优先分配到资源。能够自动检测故障和系统热点,重试失败任务,保证作业稳定可靠运行完成。支持作业定点调度,指定作业在哪些主机上运行,隔离重点任务和普通任务。支持队列增加优先级属性,优先级高的作业优先分配到资源。支持白名单功能,限制客户端向集群的 resourcemanager 提交作业。支持提交权限,限制无权用户提交作业并运行。支持队列属性修改图

19、形化,在图形化界面中配置新增、修改、删除队列属性。支持队列属性增加“最大作业提交数”属性,在图形化界面中新增“最大作业提交数”属性可配置分布式协作服务(例如 Zookeeper)分布式协作服务提供分布式、高可用的协作服务,可以用来构建分布式应用。它能为分布式文件系统、分布式列式数据库、离线计算、资源管理与调度、数据仓库等大数据组件提供重要的功能支撑。在分布式应用中,通常需要分布式协作服务来提供可靠的、可扩展的、分布式的、可配置的协调机制来统一各系统的状态。9帮助系统避免单点故障,建立可靠的应用程序。 提供分布式协作服务和维护配置信息。安全管理安全管理能够提供以用户为单位的身份认证和授权,能够对

20、集群数据资源和服务进行访问控制,包括系统用户、应用用户的身份和权限管理,日志管理等。运维管理主机管理:可以对已经添加的主机及其运行状态进行查询,可以对单台主机进行全面监控。通过在已添加主机安装代理,支持通过代理访问计算集群提供相关组件服务和操作。要求给出详细的设计方案。服务管理:对大数据平台包含的各个组件服务提供的管理界面,可对各组件运行状态进行监控,可执行启、停操作;除手动停止服务外,系统监测到服务异常终止时可以自动拉起服务,并可以根据需要打开或关闭自动拉起开关。可对具体角色实例进行管理。为避免应用之间在申请组件服务时相互干扰,提升应用的健壮性和可靠性,应支持相同组件的服务既共享物理资源,又

21、相互独立。要求给出详细的设计方案。告警管理:告警管理功能包括告警查看、阀值设置。监控系统各类异常,在管理界面上实时呈现。支持集群内不同节点差异化告警阈值设置。系统管理:包括系统配置、巡检、备份。其中,系统配置包含版本设置和 SNMP设置。巡检功能需要支持自动巡检和手动巡检两种方式。提供备份功能,包含快照和集群间备份。支持服务日志级别动态调整,支持组件配置项快速查找功能,并且用户可以根据需要新增自定义组件配置项。展现界面设计详细展示大数据平台的运行情况。界面展示内容包括主页界面、集群界面、主机管理界面、告警管理界面、安装界面、系统管理界面、日志界面、安全界面等。主页界面:可以整体查看集群的整体运

22、行状况,包括主机、服务等资源的数量、在线情况;运行负载情况;以及告警信息。集群界面:包含服务管理、静态资源池、动态资源池等;其中,服务管理界面提供对大数据平台各组件运行状态进行监控,可执行启、停操作;静态资源池界面和动态资源池界面可对根据服务状态对资源进行静态和动态调整。10主机界面:可以查询已添加的主机及其运行状态,也可对单台主机进行全面监控。告警界面:主要包含告警查看和阀值设置。安装界面:包括安装集群、安装主机、安装服务、机架管理、升级服务、升级主机。系统管理界面:包含巡检报告、开关设置、版本设置等内容。日志界面:分为操作日志、系统日志、安全日志。可以按照查询条件对日志进行查询操作,并可对

23、日志可以进行分类、删除、过滤、导出。安全界面:包含部门管理、用户管理、角色管理等。集群部署及监控集群部署与监控能够提供整个云操作系统以及上层应用服务的部署、配置管理以及服务的自检和自举。集群部署:支持自动化的安装部署,使用工具进行自动安装,简单快捷。主要功能包括:集群安装、主机安装、服务安装、服务升级、主机升级、机架管理。运行监控:可以整体查看大数据集群的整体运行状况。包括主机、服务等资源的数量、在线情况;运行负载情况;以及告警信息。同时监控大数据平台各组件运行状态、硬件资源占用情况(硬盘、CPU、内存等)等,如果被监控对象出现异常情况,监控系统就会在相关管理告警页面发出告警通知。(2)大数据

24、多维分析查询系统总体要求大数据多维查询系统要求提供超大数据规模数据查询,支持 PB 级数据量。针对海量数据可以进行任意维度的密集计算与检索, 支持建立 OLAP Cube,提供 MOLAP能力。支持高并发、低延时的在线数据应用系统,能够提供高并发的实时计算查询服务, 对于百亿行级别的数据可在亚秒级时间返回查询结果。大数据多维查询系统主要面向传统架构中 OLAP(联机分析处理)数据访问场景,利用多维分析技术,针对特定分析主题,设计多种可能的观察方式,设计相应的分析主题结构,使用户在多维模型基础上进行快速、稳定、交互式访问,以达到复杂分析和数据预测的作用,实现实时联机分析处理的效果,面向高并发、海量、低延时的业务场景。 创建数据模型

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 企业管理资料库 > 生产营运

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。