1、勤智创新创业大数据平台解决方案成都勤智数码科技股份有限公司2015 年 6 月勤智 创新创业大数据平台_解决方案2 / 24目录1 建设大数据平台的目的 .32 大数据平台带来的价值 .33 投资建设的内容 .43.1 大数据支撑体系建设 .53.1.1 大数据支撑平台 .53.1.2 数据管理子系统 .103.1.3 创新创业管理子系统 .133.1.4 数据统一展示门户子系统 .143.1.5 用户及权限管理子系统 .173.2 大数据平台运营维护服务 .193.2.1 平台内部资源的监控管理 .193.2.2 平台故障处理管理 .203.2.3 日常平台管理任务自动化 .213.2.4
2、故障处理自动化 .213.3 科研专家和数据资源 .224 项目收费和收益模型 .224.1 平台运营服务 .224.2 数据运营服务收益 .234.3 大数据产业链发展促进收益 .234.4 政府社会收益 .235 项目建设阶段目标 .24勤智 创新创业大数据平台_解决方案3 / 241 建设大数据平台的目的大数据正在改变信息社会,我们正从 IT 时代走向 DT 时代。大数据产业,作为国家战略新兴产业,受到各级政府的高度重视。大数据产业建设,通过“政府引导、市场主导”的模式建设一个数据驱动的创新创业生态环境,改变当下政务数据的分散、独立的现状,充分利用“大众创业、万众创新”的创新创业热潮,积
3、极建设一个以数据驱动的运营体系、创新创业生态、大数据产业链、政务数据共享交换、智慧城市大数据支撑平台为核心目的的大数据全产业链的生态环境。以“一点创新,全盘激活”为引导思路, “一平台,多应用”为框架设计思路,在人才培育体系建立、就业岗位增加、产业发展空间和产值提升等方面真切的做到为政府提供全方位的服务,从而为产业发展现状形成标杆性的发展格局,夯实大数据产业发展基础。进一步推进“大众创业、万众创新” ,让创业创新成为经济增长的“倍增器” 、发展方式的“转换器” , 让“大众创业、万众创新”在全社会蔚然成风;支撑政府在更高的平台上实现经济可持续发展,为产业转型升级提供经验和启示。2 大数据平台带
4、来的价值创新创业大数据平台可以带来巨大的产业发展空间、解决诸多历史问题、明确城市产业的发展方向以及带动相关产业的协同发展,具体表现在:数据运营体系的建立:建立以数据为核心资产和驱动力的运营体系,全面利用智慧城市框架内各类垂直业务的运营数据、国信优易拥有的可访问的 700T 国家部分部委的政务数据、区域政府的各委办局的政务数据等高价值的数据资产,并为之配套形成标杆性的规范与标准,对于大数据产业发展方向无疑会产生标志性的里程碑意义。依托国信优易的未来国家级大数据共享促进中心的发展定位,创新创业大数据平台作为区域内唯一的国信优易所拥有的国家部委重要数据资源的访问接口,在未来以数据驱动的运营体系中会处
5、于非常有利的发展格局。创新创业生态的孵化:以数据为基础的创新创业平台,不仅迎合了国家“大众创业、万众创新”的政策,可以为政府服务,产生很多就业机会,形成有效的汇聚人才、吸引投资的强大磁场。数据作为政府的核心资产,有数据就有机遇,就会有人才培养和孵化的润土。勤智 创新创业大数据平台_解决方案4 / 24大数据产业链的打造:结合大数据产业发展目标,充分利用创新创业大数据平台中拥有的高价值智慧城市运营数据、国信优易数据、政务数居等核心资源,打造以数据为核心的产业链:产业链上游为各类数据拥有者和数据制造者;产业链中游为各种数据加工、创新创业、数据使用者,让数据成为产业链的“石油”资源,驱动产业链的良性
6、发展;产业链下游为政府或者社会企业对数据加工创新环节产生的各类落地的应用和商业模式进行投资和运营;通过大数据产业链的良性循环,为政府带来百亿级别的产业发展机遇和上亿的产值。智慧城市数据互联支撑:智慧城市发展规划的顶层设计会涉及到很多的底层数据和上层应用,将各类垂直应用的运营数据接入到统一的智慧城市数据支撑平台中,可以为未来智慧城市建设产生的数据的互联互通提供基础支撑,为数据的运营体系提供充足的血液。政务数据共享交换:通过对各个委办局数据孤岛中各类数据的分类、数据目录定义、数据挖局、数据分析、数据清理、数据脱敏、数据水印、权限管控、数据热度模型等各类数据的生产加工,为上层基于数据的共享创新等应用
7、提供足够数据支撑;同时政府也可充分利用民生数据,脱敏利用后最大限度的做到服务于民。成都勤智数码科技股份有限公司(以下简称“勤智数码” )成立于 2005 年,管理团队均来自世界五百强,具备丰富的资本运作、市场运营经验,依托与电子科技大学成立的“机器学习和数据智能”联合实验室,在大数据平台、数据分析和算法融合、应用开发等领域有丰富的项目经验和实力,成功承接过数十个政府大型项目的建设,运营和运维工作。勤智数码期望借助本地化企业的优势,承担创新创业大数据平台的项目建设及后期运营工作,组建最优秀的专家团队,在顶层设计、建设以及运营工作等方面高质量、按计划的完成。3 投资建设的内容创新创业大数据平台项目
8、的投资建设,因为涉及的软硬件资源、咨询沟通、信息数据等内容繁多,勤智数码结合政府相关的项目经验,对初步建议的投资模式进行了如下的归纳总结。创新创业大数据平台项目主要涉及到三个方面的投资建设内容,包括:勤智 创新创业大数据平台_解决方案5 / 241)大数据支撑体系的建设2)大数据平台运营维护服务3)科研专家和数据资源服务投入具体投资建设内容如下:3.1 大数据支撑体系建设为了实现政务数据的共享创新体系的建立,对政务数据需要有完备的分析处理体系,以支撑整个创新创业生态、大数据产业链的健康发展,而且国信优易拥有高质量的国家部委的各类数据,为了能有效的访问到经过国信优易授权的各类数据,建设内容已经充
9、分考虑应用国内目前成熟和先进的技术,最大限度复用国信优易大数据平台的成熟稳定的技术架构和实现,结合特定需求的元数据管理、数据分类、数据审计、数据审核、数据评估、数据定级、数据发布、数据水印管理、数据开放接口管理、数据展示统一门户系统、身份权限管理、用户管理、平台门户系统、其他接口和应用平台等符合本地实际情况的定制开发等建设内容。大数据支撑体系是整个创新创业大数据平台项目的核心支撑,也是投资建设难度最大的一个投资建设任务之一。包括:3.1.1 大数据支撑平台创新创业大数据平台承担了智慧城市底层支撑、政务数据共享交换、互联网数据存储、国信优易数据访问接口等多个核心业务需求,平台自身需要具备和采用先
10、进的经过深度优化大数据技术、分布式存储计算和算法模型、高并发和快速响应的高速缓存架构等,建设一个基于 SOA 框架的大数据能力核心平台,作为整个项目的数据智慧处理中心,需要支持多种数据源的汇集 (政务数据、互联网数据、行业数据等) ,支持不同的数据格式(结构化数据、非结构化数据以及流数据等) 。在繁杂的数据接入要求的情况下,采用基于总线机制的数据接入系统,可以快速有效的完成数据接入的要求以及提供丰富和灵活的扩展性。大数据支撑平台的建设计划采取复用国信优易成熟的大数据平台产品的思路,一是确保了与国信优易的数据接口访问互通的一致性、二是成熟的产品架构确保了运行的稳定性、技术的先进性。勤智 创新创业
11、大数据平台_解决方案6 / 24平台的总体逻辑架构分为三层:基础设施层(IaaS 层) 、大数据平台层(PaaS 层) ,以及大数据应用层(SaaS 层) 。基础设施层依托于分布式存储架构,大数据平台层则提供了包括数据接入、分析、共享和平台管理在内的大数据分析处理功能,最后由大数据应用层提供的各种大数据应用来充分展示大数据平台的数据处理能力和共享能力。图:创新创业大数据平台逻辑架构设计3.1.1.1 基础设施支撑平台 IaaS政务大数据平台将充分利用区域政务中心(或信息中心)提供的基础设施资源,如:计算、存储、备份、网络和安全防护等,从而为政务大数据平台提供一个稳定可靠、高性能、扩展性强、易于
12、管理的基础设施平台,IaaS 层中基础的服务器和网络等资源计划尽量复用现有的硬件资源。3.1.1.2 大数据分析处理平台 PaaS政务大数据平台利用数据接入服务,将在云计算中心部署的政务应用中存在的政务信息资源以及互联网数据进行统一的接入,经过对结构化和非结构化数据进行处理后,汇总形成总计 21 个一级类,133 个二级类的政务大数据目录库,勤智 创新创业大数据平台_解决方案7 / 24实现资源的查询、检索以及共享利用。同时,构建高效的大数据分析系统,利用分布式数据处理、分析工具和展示工具,为上层应用服务提供大数据处理和分析能力。此外,利用大数据门户,为政府各委办局、社会公众、社会应用开发商提
13、供资源查询、信息公开和数据服务。3.1.1.3 大数据典型示范应用层 SaaS利用基础设施支撑平台和分析处理平台构建基础云端应用服务能力,建设数据创新创业促进系统、数据创新竞赛等提云端应用服务,在平台落地建设完毕时,即可提供具体应用提升人气,产生数据价值。3.1.1.4 标准和先进的平台大数据平台规划设计完全符合国家的宏观政策和各类标准,在标准规范层面,通过建立政务大数据平台的数据目录编制规范、数据权限管理规范、运行标准规范、平台安全与运维标准规范、数据交换接口规范,为平台的运行、维护与安全级权限控制管理等方面提供标准规范依据。大数据平台的核心技术优势明显,以整体高可用性、灵活的可扩展性、技术
14、先进性为原则,打造适合于政府的大数据产业发展的支撑平台: 双总线技术的 SOA 框架: 平台层采用基于政务服务总线(GSB)及政务数据总线(GDB)双总线架构的 SOA 框架。GDB 主要负责数据的接入和交换,GSB 主要负责对内对外的提供统一的服务接口。 深度优化的分布式异构存储技术: 平台使用了经过深度优化的HDFS、HBase 与集群关系数据库相结合的异构存储方案,利用基于内存交换技术的高速缓存和高性能数据中间件实现了高并发的异构存储体系。 自主知识产权的高效算法和分布式计算框架:平台内部集成了几十种自主知识产权的经过十多年技术沉淀的算法集合,利用 MapReduce 和Spark 的高
15、效分布式计算框架,实现各类复杂数据挖掘和分析需求。勤智 创新创业大数据平台_解决方案8 / 24图:创新创业大数据平台功能层次架构设计3.1.1.5 互联网舆情信息模块据不完全统计,中国网民规模达 6.32 亿,互联网普及率为 46.9%,网络已经成为超越广播、报纸、电视的第一大信息传播媒介。42%的消费者拥有博客或个人空间。61.7%的网民在购买之前到网络社区(如垂直网站、论坛、博客或问答)寻求推荐和建议。34%的博主发表关于产品和品牌的意见。73%的消费者在网上交流观点。76%的网民将网络口碑作为了解产品和服务最可靠的信息源。78%的消费者相信朋友的推荐。在选择商品和服务时,人们更加关注他
16、们在网络上的排行。不到 10%的网民发表着超过 80%的原创言论,并吸引着超过 90%的点击率。根据权威媒体统计,69%的政府和企业危机来自于互联网。对互联网信息的接入将在信息资源的规模上对大数据提供更加丰富的数据资源。本项目将对互联网门户网站、网络社交论坛、微博舆论信息等相关信息资源进行接入。勤智 创新创业大数据平台_解决方案9 / 24 互联网分布式爬虫对互联网数据的获取主要依赖于网络爬虫技术实现。创新创业大数据平台采用先进的分布式网络爬虫框架,由框架完成爬虫的统一调度、管理和维护工作,以及被采集数据的统一存储工作。爬虫使用者只需要进行简单的配置或开发极少量脚本代码即可完成一个复杂页面甚至
17、网站的爬取工作。另外,平台在合法范围内适当利用反防爬虫技术,如验证码识别、动态 IP、动态用户等,从而保障互联网数据的有效获取,减少人工干预,节约成本。平台提供部分互联网门户网站、网络社交论坛、微博等系统的爬虫,并采集相应数据以供平台使用。对于以后新增的应用,如果需要用到其他网站的数据,则可以基于爬虫框架,使用平台提供的 SDK 套件开发相应的爬虫。 互联网门户网站信息获取接入互联网门户网站信息获取接入是利用分布式网页爬取技术,以及基于行业领域字库的模式识别技术,实现对各类新闻门户网站、行业领域专业门户网站等相关 B/S 网页进行实时解析获取符合条件的数据。互联网门户网站信息爬取的对象如下:
18、对新华网、人民网、中国新闻网、新浪网、搜狐网、腾讯网、网易网、凤凰网、省级新闻网等各大综合类新闻网站的实时监控,获取符合条件的电子政务相关的信息。 对中国气象网、中国地震台网、交通网、减灾网等行业领域门户网站的实时监控,获取气象、地震、交通、自然灾害信息。 其他政府期望及时获取的有价值互联网信息等。 网络社交论坛信息获取与门户网站信息获取方式类似,网络社交论坛信息获取同样通过网页的爬取技术获取互联网中的社交论坛信息。主要提供以下相关内容的获取: 对天涯社区、猫扑社区、搜狐论坛、凤凰论坛、网易论坛、新浪论坛、勤智 创新创业大数据平台_解决方案10 / 24凯迪社区、强国论坛、中华网论坛、新华网论
19、坛、环球网论坛、红网论坛等众多主流论坛的信息进行实时监控,获取符合条件的电子政务相关的信息。 对搜狗说吧、百度贴吧等公共交流平台中的信息进行监控,获取网民反映电子政务相关的信息内容。 微博信息获取微博信息获取主要通过调用爬虫对新浪微博的网页爬取方式,对微博用户发布的信息进行实时的爬取,微博信息可以进行基础的统计分析,为未来深层次利用做好准备。3.1.2 数据管理子系统3.1.2.1 元数据服务系统 元数据库管理基于 Web 浏览器端,向后台系统管理员提供根据数据平台内部的元数据标准(数据描述元数据、服务信息元数据) ,分别进行对应元数据库的创建与管理的功能。 元数据管理 基于 Web 浏览器端,向后台系统管理员提供对元数据文件导入的功能。 基于单机版元数据编辑器,向后台系统管理员提供对数据描述元数据的创建编辑保存功能。 提供基于元数据检索、元数据入库存储、元数据修改删除功能的元数据管理 WebService 服务。 元数据服务管理基于 Web 浏览器端,向后台系统管理员提供启停元数据服务的功能。3.1.2.2 数据目录和接口标准管理系统大数据资源目录体系梳理包括对政务信息资源核心元数据标准、分类标准、标识编码标准等方面进行梳理。参考国家对政务信息资源分类体系的制定标准,经过先期梳理,可将政务大数据资源目录梳理为 21 个一级类,133 个二级类。