1、福建省生态环境大数据平台概要设计1. 整体设计思想福建省生态环境大数据平台立足于福建省各种生态环境数据;通过多种渠道,采集与生态及环保有关的海量数据;采用当前最前沿的大数据技术(并行计算技术、人工智能技术),对数据等进行挖掘建模和机器学习建模,通过数据挖掘发现隐藏于其后的规律或数据间的关系,充分挖掘这些数据的价值,从而形成能实际应用于民生的新生数据;作为专家及政府的决策依据,辅助政府精细化决策,辅助专家预测将来可能有出现的环保问题;并能解决现实中真实发生的环保问题;从而改善环境,提升居民生活环境的质量,和百姓生活的福祉。平台建成后,将形成一个完整的基于大数据的生态环境数据智能化收集、智能化核算
2、分析、智能化发布和智能化监管体系,这一平台体系可以把福建省生态环境状况,全面、直观地展现给政府部门和社会公众。同时环保部门可以重点关注核电站周边生态环境实况。通过可测量、可核查的生态环境数据,为福建省的生态环境现状评估、趋势预测、潜力分析、目标制定与跟踪,提供决策服务,进而实现对生态环境重点污染源、生态环境动态变化进行有效监管,并为建设生态环境交易市场体系奠定基础。从使用者的角度看,所有的平台数据集中到统一的逻辑平面上来;平台以省、市、县分级别多视角展示生态环境实时信息,以全息,动态的地图形式全方位地展现给使用者。平台为各类使用者提供不同的观察视角;领导能查看实时汇总信息,核辐射区大气实况;环
3、保工作能查看各类精细报表与指标,并能搜索工作中所需要的信息。展现方式有:电子大屏幕播放,WEB 浏览, 手机 APP 访问等三种方式。从数据处理的角度看,平台运行后将建成以生态环境数据为中心的开放式数据中心,广泛收集来自气象,农林,海洋,交通,能源, 车联网等第三方数据,同时也给第三方输出数据并分享成果数据;为后续深度学习积累数据样本,将来平台具备很强的自我学习能力。2. 用户使用场景环保领导大屏查看全局实时信息情况,核核辐射区大气实况,查看汇总报表,指挥环境突发事件处理。环保科学家使用多级分析报告,生成各类分析结果,导入环保知识库,搜索各类数据。环保工作者输入各类数据,依据决策系统认领分发任
4、务。市民订阅环保信息,上传个人采集数据。3. 数据处理场景平台将形成以生态环境数据为中心的开放式数据中心,数据来源有来自环保厅的自有行业数据,广泛收集与环境有关系的第三方数据,定期抓取互联网数据,也接受来自市民提交的数据。如下图所示,数 据 安 全 子系 统生 态 环 境行 业 数 据互 联 网数 据第 三 方数 据原 始 数 据福 建 省 生 态 环境 大 数 据 平 台成 果输 出成 果输 出结 构 化 数 据对 象 数 据成 果 数 据市 民 提 交数 据数据处理场景为了数据安全,平台提供了数据安全子系统,用于数据安全,数据进入平台有两种方式,一种是直接进入处理中心,另一种是通过数据安全
5、中心加密后进入处理中心,加密后的数据与其它数据在平台里是没有区别的,处理进程在使用数据内容时需先行解密后方可使用。进入平台的数据存放在数据仓库中。永久存放的数据就内容来说,分为原始数据,对象数据,结构化数据,成果数据;原始数据是指没进行任何处理的裸数据,对象数据是有属性,能用元数据来标识的数据,结构化数据通常指数据库,成果数据由处理系统来确定格式,是其它数据经处理后的有实用意义的成果。当然平台也会把数据处理成果输出给用户,在原始数据拥有者的许可下,成果可以共享。4. 架构设计概要系统采用分层设计方案,如下图所示,系统分为三个层次:应用表示层、数据处理层、并行计算环境层;另有两个子系统:数据接口
6、子系统、运行保障子系统。把与实际业务有关的模块集中在应用表示层,把数据处理有关的放在数据处理层,由并行计算环境层提供海量的存储与大规模计算,数据接口系统作为平台统一的数据来源,及输出接口;运行保障子系统给整个平台提供不间断的运行维护及安全保障。环 保 平 台 应 用 表 示 层环 保 平 台 数 据 处 理 层运 行 保 障子 系 统数 据 接 口 系 统并 行 计 算 环 境 层互 联 网 弹性 搜 索并 行 式 计算 系 统环 保 推 荐 引 擎 ( 人 工 智 能 )工 作 流 协调 处 理 系统环 境 综 合分 析 模 型数 据 仓 库历 史 数 据导 入并 行 式 文件 存 储第 三
7、 方 数据 采 集监 测 数 据采 集常 规 大 数 据 处 理污 染 溯 源模 型环 境 异 常预 警 模 型气 侯 影 响分 析 模 型可 视 化 数据 挖 掘 模块数 据 可 视化 模 块环 境 舆 情分 析 模 型环 保 统 计与 报 表 模块数 据 输 出接 口多 维 分 析模 型市 民 微 信上 传 接 口环 境 舆 情 管 理 系 统污 染 源 综 合 管 理 系 统核 辐 射 大 气 监 控 系 统空 气 质 量 监 控 与 展 示 系 统专 家 决 策 辅 助 系 统信 息 分 发 系 统环 境 应 急 指 挥 系 统商 业 交 互 接 口 系 统大 屏 G I S 系 统废
8、 气 排 放 监 控 系 统固 体 废 物 监 控 系 统土 壤 质 量 监 控 与 展 示 系 统水 质 量 监 控 与 展 示 系 统环 境 移 动 执 法 监 察 系统碳 排 放 管 理 系 统事 件 开 发模 块数 据 管 理模 块数 据 安 全模 块总体构成4.1.数据接口子系统平台数据办输入与输出功能全部由数据接口子系统来完成,核心数据由环保部门的监测数据以及从手工导入历史数据构成;第三方采集数据,互联网抓取数据,市民上传数据是重要的补充部分;数据全集必须在内在的逻辑方面形成一个完整有效的数据链,以便人工智能模块进行多维度分析。针对核与辐射的土壤监控,采用数据动态同步方式,数据来源
9、主要来自福建辐射监督站开展的年度监测工作,包括土壤样本的实验分析结果、辐射本底调查数据等。将核电厂周边区域的土壤环境质量进行动态监控。同时,在历史数据挖掘的基础上,研究放射性物质在土壤中的迁移规律。针对核与辐射的土壤监控,采用数据动态同步方式,数据来源主要来自福建辐射监督站开展的年度监测工作,包括土壤样本的实验分析结果、辐射本底调查数据等。将核电厂周边区域的土壤环境质量进行动态监控。同时,在历史数据挖掘的基础上,研究放射性物质在土壤中的迁移规律。4.2.应用表示层应用表示层通过调用数据处理层的功能来完应用系统的功能,凡是与具体应用无关,可以抽象出来的功能,均在数据处理层实现,各应用系统不用单独
10、开发相应功能。总体上来看应用表示层完成以下功能:a.实时动态按省市具区域、按类别、按管理功能的数据可视化显示。b.掌握生态环境数据库,实时掌握生态环境的变化。c.区域生态环境信息、企业生态环境信息、工业生产过程生态环境量、能源种类生态环境量、废弃物生态环境量、生态环境汇集等。d.可视化运行监测,全面能耗监测,为宏观分析和决策提供数据分析支撑。e.辐射环境大气监测应用福建省核电发展迅猛,在建的宁德核电厂与福清核电厂分别于2012 年和 2013 年投产发电,规划建设的三明快中子反应堆项目已通过可研,目前福建省规划建设和在建的核电机组共十几台,这些能源项目的启动和建设,将大大缓解福建省电力能源供应
11、紧张的局面,奠定海西大型能源基地的地位。同时,也树立了福建省作为核电大省的地位。由于核辐射看不起,摸不着,但却是人民群众密切关注的,这就需要与之相匹配的辐射环境大气自动监测网。未来福建省将建成核电厂辐射监测系统、监督性监测系统、国控点、省控点等多个监测平台,提供各类的大气辐射环境在线、离线监测数据,但对于这些多来源的数据如何处理、整合,进而开发相关的数据功能,还需进一步的工作。通过对辐射环境类大气监测数据的大数据挖掘,实现核与辐射数据的相关业务应用。4.3.数据处理层数据处理层建立在并行计算环境层基础之上,为应用层提供数据计算服务,本层分为两个部分:环保推荐引擎,常规大数据处理;常规大数据处理
12、为上层及推荐引擎的数据统计、数据分析、数据预警、数据挖掘提供支撑平台。环保推荐引擎完成数据挖掘与专题分析任务,为上层提供判定结果。集成多种模型算法,优化核算模型,温室气体排放因子测算, 对排放因子测算和数据质量控制,进行准确性判断。为城市管理者提供现状评估、趋势预测、潜力分析、目标制定分解及跟踪等辅助决策服务。通过成立专家评估委员会,对排放系数的有效性进行分析,特别是对一些强制性指标加以深入推敲。控制指标包括排放系数统计信息分类的所有指标。建立企业生态环境价值评估模型, 分析研究主要行生态环境对比研究行业不同规模、不同性质、不同层次的温室气体排放情况,融合生态环境的核算、因素分解分析、模型、峰
13、值预测、情景潜力研究和福建省减排路径分析,为低生态环境策略制定提供可量化的决策依据。建立生态环境评价与挖掘平台,自动完成主要行业基于温室气体排放分析研究报告,为工业源的温室气体排放研究、评估以及未来的控制政策提供支撑支持。主要实现功能如下:a.为实现生态环境交易提供数据决策支撑服务。b.针对环境发展通过大数据建模,对生态环境未来进行预测和预警。c.针对生态环境的决策,依据生态环境基础数据,建立大数据模型,并进行深度分析,得出生态环境配额,生态环境足迹分析等各种专业问题的结论。d.建模,以支持节能减排降生态环境目标的预警调控方案。e.低能耗低排放产业分析。f.为调整优化能源消费结构提供数据支撑等
14、h.气象数据耦合计算所有的大气环境污染,都在在大气环流中弥散传播的。如果要通过监测数据对污染源进行追踪,则需要同时耦合大气扩散数据进行反向的溯源计算。环保气象数据处工功能主要负责接入全省实时气象数据和预报数据,将其处理为可供各个其它应用的基础数据,并提供相关的计算模型进行反向耦合计算。4.4.并行计算环境层并行计算环境层是大数据平台的核心驱动层,其基础计算能力直接影响上层的运行效率与运行速度。并行计算环境层为上层提供大规模计算与存储服务,并行计算环境层由工作流协调处理系统,并行式计算系统.数据仓库,并行式文件系统组成; 并行计算环境层由一个服务器集群组成,集群规模随着平台的计算需求进行扩充。5. 平台建设关键技术大数据是指一般的软件工具难以捕捉、管理和分析的大容量数据,通常以 PB 来计量(1P=1024T,1T=1024G);其意义不仅仅在于容量之大,更大的意义在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值;通常大家用 4V 特性来描述大数据; Volume(容量)根据 IDC(国际数据公司)的监测统计,2011 年全球数据总量已经达到 1.8ZB(1ZB 等于 1 万亿 GB,1.8ZB 也就相当于 18 亿个1TB 移动硬盘的存储量),而这个数值还在以每两年翻一番的速度增长,预计 到 2020 年全球将总共拥有 35ZB 的数据量,增长