1、油田数据融合关键技术研究摘 要 对于油田信息化建设而言,建立一个高度共享、界面友好、高效运行的数据融合平台有着重要而深远的现实意义。经过深入调研和分析,该文结合国内外数据中心建设的实践经验归纳总结了影响数据融合平台建设成败的五大关键技术因素。并在此基础上,提出了以虚拟数据仓库为核心的油田数据中心系统架构及关键技术路线。 关键词 虚拟数据仓库;数据中心;联邦;信息门户;元数据1 引言随着信息技术的飞速发展,国内外各大石油公司的竞争已经表现在信息技术应用的竞争,都在设法借助信息技术的力量,寻找新的增长点,从石油天然气行业的上、中、下游陆续建立了各类信息系统,历经数十年,投资数十亿美金不等。另一方面
2、,国内大多数油气田,现有的信息系统多为自主开发和部分引进系统。已经完成的各类专业应用软件、专业数据库系统和数据仓库等分别建立在不同的平台上,数据源各异,信息标准不一、相互独立,信息来源渠道分散并分别集中在不同的层次,相互间难以实现不同层次信息交换;这些系统不仅各自独立,分散,甚至存在某些数据重复建设的情况,数据冗余严重,同一份数据重复出现在多个应用系统中,存在数据不一致的风险。数据中心(数据融合平台)通过将油田各应用系统有机集成和业务重组,最终构建一个统一的、标准的、集成的、能够包容各业务流程的数据中心体系架构和数据交换和共享平台,支持分散的、松藕合的分布式应用集成。大大地避免油田在信息系统方
3、面重复建设,重复投资,为油田节省大量的资金。然而,各大油田对数据融合平台建设目标和建设内容的理解各不相同。所采用的技术也是五花八门,这样实现的数据中心往往运行效率不高、对原有系统改动大(有的甚至直接放弃原系统) 、难于推广,这势必会严重影响数据中心的全局应用。在本文中我们试图通过分析影响数据中心建设的若干关键技术因素及解决方案,得到一个具有普遍意义的、先进、高效的数据融合平台架构。2 关键技术因素分析2.1 如何有效整合大量异构、异平台数据源随着油田信息化建设的深入进行,大量的信息系统被开发并投入运行,由此而产生出了大量的同构异数据库、异构异平台的不同数据源,在这些数据源中有些是结构化的、有些
4、则是文档、曲线数据等非结构化数据,还包括 OA、ERP、纸制文档等一大批数据源。如不能有效整合和管理这些数据,将很容易造成数据遗失和管理混乱。然而,如何有效整合如此庞大、复杂的数据源呢?是将所有数据集中到一个大库中统一管理?还是采用分布式技术建立统一访问平台?如何在各数据源的基础上实现综合、分析、挖掘?这些问题都将成为油田数据中心建设所面临的难题。2.2 如何为用户提供统一的登录及安全可靠的数据访问平台油田数据中心建设用户提供统一的登录及安全访问的目的是为了解决以下几大问题:(1)各系统之间互不兼容,数据信息不能共享。(2)用户使用不同系统时,需要在不同系统中不停登录切换,效率低下。(3)管理
5、人员需要记忆一大堆的用户名和密码。(4)不同系统需要很多不同专业的人员更新维护,维护成本很高。针对上述问题,目前行业内提出了很多解决方案,但是在实施中如何选择最优的方案以解决面临的诸多难点问题:(1)如何解决灵活性适应性差,花费大量时间建立的信息系统不能适应需求的变化,一旦需求改变,就将不断修改程序甚至全部重建,增加时间和资金投入的问题。(2)如何建立起全局的安全访问目录,为用户提供灵活、方便、安全的数据服务。(3)如何有效集成大量图形、图表工具,为不同角色、管理级别的用户提供直观、灵活的查询界面。(4)个性化服务问题,即为用户定制访问首页及访问内容。2.3 如何有效管理元数据元数据的定义一般
6、泛称为:Data about data(管理数据的数据) 。元数据的具体定义和应用随学科不同和应用领域不同而异。在石油领域,元数据是描述一个具体的油田数据库数据资源对象(数据集或数据) ,并能对这个对象进行定位管理,且有助于它的发现与获取的数据。从元数据的定义可以看出,所谓元数据就是要定义一种管理数据的格式或数据字典,与此同时数据之间的关联也应定义在元数据中。然而在具体实施中却存在着一系列难点问题需要解决,例如:(1)在石油领域里需要定义怎样的数据格式?(2)元数据的规模有多大?(3)如何将元数据的定义与数据源进行抽取、过滤、转换、映射关联在一起,从而实现元数据定义的自动化?(4)如何为元数据
7、管理提供完整易用的操作界面(甚至是图形化的界面)?2.4 如何充分利用企业现有硬、软件资源及网络资源企业现有服务器、网络资源往往得不到充分的利用,如何高效的组织企业现有硬、软件环境为生产应用服务,这也是数据中心建设中急需解决的一大问题。实施中可能遇到的难点问题包括:(1)如何评估企业现有硬件、网络资源的使用效率?(2)如何根据数据中心运行需求来优化配置企业现有资源?(3)网络及硬件设备管理规范。2.5 如何从海量数据中整理、挖掘出有价值的数据仓库模型建设面向主题的数据仓库首先面临的问题就是如何区分决策关键数据。其次是主题分类的问题,不同的专业需要不同的决策数据,需要建立不同的数据仓库模型,这一
8、点不同于研究院现有的数模和建模,需要在庞杂的业务数据中不断挖掘出新的、不同规模的主题和仓库模型,并为这些主题建立起专业分类以方便管理,随着应用的深入能够被发掘出来的主题会越来越多、越来越细。最后,怎样把这样大量的数据转换成可靠的、商用的信息以便于决策支持的问题也是数据仓库建设中必须要解决。3 数据整合平台的总体技术架构设计3.1 数据融合平台系统设计思想通过上述关键技术因素分析,我们明确了所要解决的主要目标问题,在此基础上我们进一步提出数据融合平台系统设计思想和关键技术路线。1)数据融合平台建设是一个庞大的系统工程,需要分阶段、分步骤实施。从上述关键技术因素分析中我们可以提炼出系统建设的三个主
9、要层次,即:首先要完成数据中心所需数据的分析、整理工作,从而制度出统一的数据标准和元数据规范;其次是已数据标准为基础建立数据交换与共享平台;最后建立项目数据库和数据挖掘、知识管理环境。2)数据融合平台需要建立在一个高效率、高稳定、高可扩展性以及高安全的运行环境中,因此作为目前技术主流的 J2EE 符合此类大型系统的设计需要,它具有可靠、稳定、跨平台的诸多优势。另一方面,数据融合平台需要一套完整的而有机结合的技术解决方案,要解决包括异构、异平台乃至非结构化数据的有机融合、符合个性化和安全要求的信息门户与数据交换平台的有机整合、知识管理、数据挖掘环境与数据交换平台的有机整合。在众多 J2EE 平台
10、中,只有 IBM 方案能够有效满足上述三大结合的需要,其主流产品 WebSphere II、Websphere Portal、DW9 已被广泛运用于电力、银行等大型企业数据整合系统中并具有较高的性价比。3)针对数据集中还是分布的问题,我们提出的虚拟数据仓库体系架构有效结合了集中式和分布式优点,既能够保证原有系统不会因为数据集中而影响使用,又能够通过 ETL 从虚拟数据仓库中导出项目数据到项目数据库中。有效满足了用户对数据的各类需求。4)需要建立一个可扩展的集成数据挖掘、知识管理、OLAP 等多种分析工具在内的项目环境为知识发现提供基础运行平台。5)需要建立以数据中心为核心的服务器群集环形网络架
11、构体系及数据存储 NAS 和 SAN 混合架构。服务器群集环形网络架构体系包含群集件和负载平衡管理,可以定义规则使之在正常工作时和应对故障时自动为每个服务分配处理资源。3.2 虚拟数据仓库总体技术架构下面我们给出虚拟数据仓库总体技术架构,本架构全面覆盖了五大技术因素,并有机融合了目前国际领先、成熟的技术、产品包括联邦技术、门户技术、元数据管理、数据评分及多维数据分析技术,服务器群集环形网络架构体系及数据存储 NAS 和 SAN 混合架构等。图 1 虚拟数据仓库总体技术架构技术架构分析:本技术架构由两大资源管理平台构成:石油数据资产化管理与应用系统平台专业应用和综合应用数据资源平台(上图中两大平
12、台所涉及领域用白色虚线区分)石油数据资产化管理与应用系统平台主要内容介绍:1)目前分散在各部门的数据库系统(包括勘探、开发、生产调度等)在物理位置上保持现状,但在逻辑上和管理上统一纳入分布式数据库系统管理范畴。它们的数据源采集流程及数据质量保障则纳入标准化体系,对录入数据进行数据整理、质量审核、数据加载。2)虚拟数据仓库体系建立在分布式数据管理系统基础之上,提供索引编目、安全管理、元数据管理、权限管理、空间数据集成、数据抽取等服务。3)数据中心数据管理门户为虚拟数据仓库管理人员提供统一的登陆和管理操作界面。4)企业应用门户提供数据资源需求用户统一的登陆、检索界面。专业应用和综合应用数据资源平台
13、主要内容介绍:1)数据需求者根据需求,通过虚拟数据仓库抽取出所需要的数据建立数据集市。2)根据以建立的数据集市提供用户数据挖掘、高级检索、OLAP 所需的相关工具支持。3)数据集市还包含地震、测井等大体数据。4 油田数据整合关键技术4.1 联邦技术联邦是指对跨越多个数据资源的数据关联查询的技术。通过实现该技术从而支持不同数据库表之间(甚至文本文件间)数据的关联查询。整合不同数据(分布式和大型机,结构化和非结构化,公共和私有) ,在处理使其如同是在单个数据源中。联邦技术能够统一地访问以任何格式(结构化的和非结构化的)存储的任何数字信息。通过采用数据联邦,可在不影响现有应用的前提下,将各类系统的数
14、据源通过联邦的方式映射到一个逻辑的数据库中。联邦的特性: 透明性。所有信息源看起来就像是一个信息源。 异构性。从不同数据源整合数据。 可扩展性和工具化。可以访问任何数据源。 可以通过标准的分析、报告和开发工具来无缝利用的高级功能。查询接口提供了基于标准的完整功能包括对后端数据源中缺少能力的补偿。 避免需要对现有数据源和应用程序进行更改的自主性。 其性能可以满足实际应用程序和可能应用程序的需要,包括高级查询优化技术、本地数据访问以及透明缓存支持。联邦的技术组织结构:图 2 联邦技术组织结构图 2 中:联邦服务器(Federated Database Server)通过称为包装器(Wrapper)
15、的软件模块与数据源进行通信。对于上述各类数据源,WebSphere II 提供专用的 wrapper,每个 wrapper 实现异构数据源的SQL 处理,支持异构数据库间数据类型的转换和函数的转换。对关系型数据库数据源而言,包装器通过安装在信息整合平台的该数据库的客户端与其进行交互。对非关系型数据源,包装器直接进行数据访问。包装器从信息整合服务器接受数据访问指令,进行转换为数据源所支持的 SQL,通过数据源的客户端提交执行。然后将结果返回给信息整合服务器处理。4.2 Portlet 技术基于 IBM Websphere Portal 技术实现的油田信息门户平台能够高效地把各种应用系统、数据资源
16、和互联网资源统一集成到通用门户之下,根据每个用户使用特点和角色的不同,形成个性化的应用界面,并通过对事件和消息的处理传输把用户有机地联系在一起。简单而言,门户平台是能够充分满足用户个性化需求,使得用户能够以自己的方式交互访问相关信息、应用软件以及业务流程的集成平台。该平台主要技术特点包括: 多平台系统的单点登录集成框架在统一的浏览器环境下,通过一次身份认证,即可按照各自的权限存取不同的应用系统,动态浏览企业内部管理信息、外部经营管理信息。 多平台系统内容集成框架在统一的浏览器环境下,通过与原有应用系统 (如 OA 系统、ERP 系统、勘探信息系统,开发信息系统等) 进行集成,在保留现有系统的前
17、提下,使得通过统一的门户能够进入这些应用系统,并可以 portlet 形式集成原有应用系统的内容。 强大的文档搜索功能石油行业的各种文档形式多样,格式可能是文本、XML、Word 文档、PDF 及 PPT 文件,存储在文件系统、内容资料库、数据库及邮件系统中,并且安全级别各不相同。因此,该系统提供区别于其他搜索引擎的专有引擎来搜索各种文档。 与 ERP 工作流、原始报表和水晶报表系统无缝集成在统一的浏览器环境下,在各自的使用权限下通过 portlet 集成展现 ERP 工作流的审批过程及各种报表,统计图表。 用于协同工作的信息即时交流平台在该门户系统上工作的同时,用户可看到其他在线的人员,然后通过内部邮件系统、在线聊天等手段与之交流,提高工作效率。 用户的个性化定制 在该门户系统上工作时,可自定义页面,在自己的页面上添加经常关注的信息,或经常要使用的集成的各种应用系统。 强大的安全管理平台 在基于 LDAP 的技术上,提供基于角色的用户安全管理功能,使得各级用户只能浏览权限范围内的信息,确保系统安全运行。整个系统,只需要一次登录,即可访问所有具有权限的信息和功能。用户口令实现集中管理。4.3 元数据管理首先,油田各类数据库可以利用元数据技术规范化其现有的数据资源。每个专业领域建立自己的元数据标准,各专业子库按照这种标准的
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。