1、数据管控产品规格说明书 数据产品规则说明书 第 1 页 第一章 引言 1.1 编写目的 本文档作为数据管控产品体系(元数据和数据质量管理)的产品方案说明书,介绍元数据和数据质量的 解决方案。 1.2 项目背景 经过多年建设,企业一般已经初步建成了各类管理信息系统,虽然在运用和分析数据支持经营决策方 面已初见成效,但是对比战略发展要求和国内外最佳实践经验,还是存在数据管控水平不高,以及配套体 系建设相对滞后的问题。为解决这些问题,企业会做种种努力,但由于未采用系统性的管控治理,数据问 题并未能从根本上解决,阻碍了企业管理精细化的进程。 参考国内外同业先进理念、做法,一般会从数据标准、数据质量、数
2、据模型、数据分布、数据安全、 数据生命周期管理等 6 个方面,采用全面规划、分步实施的策略,分阶段有序推进数据管控项目建设, 包括构建统一的数据管控制度体系、优化数据管控流程、实施有针对性的数据管控配套系统建设 ,实现 对数据资产的全面管理和深度利用,进而提升数据资产管理水平和信息服务水平,形成差异化的竞争优势 和核心竞争力。 第二章 方案概述 2.1 方案目标 本方案主要完成以下工作: 完成元数据管理系统和数据质量评估管理系统的引进、集成部署和客户化定制; 完成风险相关数据标准在元数据管理系统的落地; 完成风险相关数据质量的评估及数据质量评估分析模型的开发。 完成其他业务需求中明确的试点系统
3、的数据标准发布和质量评估落地工作。 数据产品规则说明书 第 2 页 2.2 项目范围 2.2.1 实施内容 1) 元 数 据 管 理 系 统 和 数 据 质 量 评 估 管 理 系 统 相 关 基 础 性 工 作 根据业务需求,结合企业现有系统的情况,制定具体项目实施方案,确保能完成相关咨询成果在系 统内的部署和设置。完成系统接口设计、系统架构设计和形成实施所需的需求规格化文档等工作。完成 产品的集成安装和初步调试工作。若提供的软硬件配置建议书不能完全满足企业软硬件选型需要的,需 要协助事先完成必要的产品测试工作,确定最终的系统软硬件配置清单。 2) 元 数 据 管 理 系 统 和 数 据 质
4、 量 评 估 管 理 系 统 的 客 制 化 开 发 实 施 根据企业的业务需求,对产品或应用进行客制化实施。根据对业务、技术元数据进行抽取和加载, 在系统中建立元数据之间的映射关系。根据评分模型对评分卡进行客制化开发,并能将评分结果数据在 第三方报表平台上展现。本阶段需要完成系统的概要设计、详细设计;完成数据接口设计和数据 ETL 工 作;完成产品的配置,应用和报表的客制化开发等。产品客户化过程中,出现在场人员无法解决的技术 或产品问题时,投标人应及时组织国内国外资源,快速解决问题,不能因此对项目进度造成影响。 3) 元 数 据 管 理 系 统 和 数 据 质 量 评 估 管 理 系 统 的
5、 测 试 完成元数据管理系统和数据质量评估管理系统的各类测试工作,包括:单元测试、集成测试、压力 测试和协助用户测试,测试工作需要符合企业测试规范要求。单元测试和集成测试的主要工作是:制定 测试策略和计划、准备测试案例和数据、执行各类测试案例(含功能测试、接口测试、报表测试、系统 管理和非功能性需求测试等)、分析测试结果、针对测试问题进行回归测试。压力测试的主要工作是: 制定测试策略和计划、准备测试案例和数据、执行性能测试案例、分析测试结果、针对测试问题进行回 归测试,完成系统调优工作。用户测试的主要内容是:做好测试数据准备工作,并协助完成测试。 4) 元 数 据 管 理 系 统 和 数 据
6、质 量 评 估 管 理 系 统 的 上 线 和 试 运 行 完成元数据管理系统和数据质量评估管理系统的上线和试运行工作。元数据管理系统和数据质量评 估管理系统上线的相关事宜,主要包括:确定系统软硬件、完成系统整体部署(含集成部署)、调试和调 优、完成系统的初始化工作。完成符合企业规范的上线和移交文档。编写用户操作手册、业务手册、系 统操作手册等。元数据管理系统和数据质量评估管理系统试运行相关工作,主要包括:试运行实施规划、 试运行过程中的问题整理和处理、试运行结果分析等。维护系统、明确系统应急处理机制并演练等。 数据产品规则说明书 第 3 页 2.3 方案概述 数据管控系统建设方案元数据产品
7、MetaOne 系统和数据质量系统 QualityOne,并结合专业的 业务和技术团队,旨在建立一套符合企业数据管控体系建设需求的数据管控体系系统。 数据管控体系建设项目依托元数据和数据质量管理体系,旨在建立一套符合企业特色的数 据管控体系系统,本项目实施主要完成数据管控系统咨询成果落地工作,通过数据标准配置;指 标标准管理及分析预警;元数据获取和调度;数据质量分析和预警展示和数据探查分析和预警等 模块,全方位全角度展示企业系统平台技术和业务元数据分析,最终,实现数据质量监控预警。 第三章 总体方案 3.1 系统架构 3.1.1 总体系统架构 数据管控体系建设平台实施方案采用双模式进行调度配置
8、,为保证第一时间有效监控业务风险相 关业务指标监控情况,因此,总体方案中,首先采用企业数据仓库平台调度平台优先监控风险相关业 务指标信息,其次元数据管理产品内部调度机制,加载相关平台,关系数据库(应用业务数据和技术业 务数据)和数据模型等元数据信息。 信息交付层:主要展示元数据和数据质量成果信息,展示方式主要通过都必须通过 AD 域验证(统一 认证平台),信息访问通过报表平台 BIEE 和元数据系统内部展示平台展示元数据和数据质量分析预 警信息。 应用层:主要提供企业 BIEE 报表系统展示的数据接口,展示业务客户需要的业务元数据信息。 系统管理层:主要描述 MetaOne 和 Quality
9、One 为用户提供基本功能完善的元数据仓储管理平台,并 支持基于平台的应用服务定制。丰富的调用接口和强大的二次开发指南,保障产品良好的适用性。 系统整体在功能上,划分为存储层、基本功能层、接口层、应用层。 数据获取层:主要描述系统获取元数据方式有两种触发方式,为实现监控风险相关业务指标,系统 将采用部分任务配置在调度平台调度;其他数据获取方式将采用 MetaOne 定时触发和依赖满足触发 任务,将所需的业务指标数据和平台技术数据安装规范加载至平台内部。 数据产品规则说明书 第 4 页 源数据层:主要描述数据管控体系的数据源信息,包括标准格的业务元数据;镜像业务系统关系数 据库;ETL 系统标准
10、元数据信息;平台相关技术元数据信息;模型设计文件元数据和咨询涉及的其 他标准元数据文件成果。 3.1.2 物理系统架构 数据管控体系系统物理架构采用应用服务和数据库服务器独立方式设计,同时,两台服务器 具体内部互补自动切换功能,有效防止由其他因素导致的系统瘫痪。 1 0 0 0 M 交换机 防火墙 业务用户 防火墙 业务用户 办 公 网 1 0 0 0 M 交换机交换机 数 据 仓 库 服务器 数 据 仓 库 服务器 统一认 证 C i t r i x 平台 元数据和数据质量 生 产 网 元数据和 数据质量 互通互备 3.2 系统数据流程 下面展示元数据和数据质量系统数据流程图示如下: 数据产
11、品规则说明书 第 5 页 3.3 网络和安全 MetaOne 元数据系统部署于企业的业务网段,通过代理将应用服务器地址反向映射办公网段,仅 开通 WEB 服务端口,向位于办公网段的业务管理用户提供服务;其他业务系统的接入均在企业的业务网 段内,与外部环境隔离。 3.3.1 开放的 Internet 标准 系统建立在开放的 Internet 标准之上,例如:SSL,HTTP,XML,TCP/IP,SOAP,支持多层次 的客户机/服务器体系结构,其通过 TCI 组件支持多种报文的传输、组包、解包;利用 web service 实现与异构系统之间的数据交换。可以成功运行在支持 Java 虚拟机的各种
12、操作系统及相 应的各种硬件平台上,符合信息技术的发展方向,具备广泛的应用前景。 3.3.2 系统层安全 系统层安全主要针对系统的操作系统和数据库等软件平台进行安全防护,其主要采用的措施如下: 安装系统的安全补丁(Patch) 。 关闭不需要的进程服务和端口。 使用漏洞扫描产品,定期进行安全扫描及时发现问题并采取补救措施。 定期审核系统配置,避免因配置不当造成的权限管理混乱。 3.3.3 业务安全控制 通过安全代理前置设备、防火墙等系统来保证系统的安全性,以及通过负载均衡来保证系统的高可 用性,这只是从网络环境和系统结构的角度保证系统的安全,整个系统的安全性应该是一个多层次的概 念。 主要考虑一
13、下几个方面: 关键操作有详细的操作记录可查。 登录系统日志的安全审计 多维的交易权限管理机制,关键操作提供多重授权功能。对于管理端的关键数据设置提供严格的 数据产品规则说明书 第 6 页 复核机制,以保证数据的正确性、合法性。 会话管理(Session):与应用服务器的会话管理结合,实现多种会话的建立和管理,让不同的 会话采用统一的管理机制。同时实现会话的超时管理,有效防范避免操作人员使用已经失效的会 话进行误操作,同时防止垃圾会话数据占用内存,影响系统性能甚至使系统无法工作。 3.3.4 统一身份认证 针对统一身份认证系统的要求,系统采取一种适用(针对)于 WebLogic Server 的
14、、简洁的、有效 可行的统一认证即单点登陆(SSO)解决方案。这个方案以集中统一的用户信息为基础,但不包括上节说明 的权限管理,而仅仅提供一个身份验证的服务。实现 SSO 的本义。 在 SSO 帮助用户完成身份验证后,由系统本身的权限管理进行用户行为的进一步控制。这样不仅完 成了用户帐号的集中管理,又不失原有系统灵活的权限控制。而且方案简单可行,不需要对原有应用做 较大更改,适合快速解决 Single Sign-On 问题,符合行内系统的要求。其主要采用 SAML Browser Post Profile 方案,通过推模式获取 SAML Token,由 Identity Provider 推 A
15、ssertion 到 Service Provider.而 后验证 Assertion 将用户重新定向到目标 URL。 3.4 系统灾备 为了保障对数据处理的高可靠性和高可用性,系统需要具有较好的实时备份和灾难恢复能力。系统 采用 SQL SERVER 2008 数据库服务器支持的双机热备容错方案来实现系统的备份策略,由两台机器共享一 个磁盘阵列(共享磁盘组),当其中一台机器发生故障时,另外一台机器接管整个磁盘阵列,从而实现双 机容错。如下图: 数据产品规则说明书 第 7 页 数据产品规则说明书 第 8 页 第四章 方案细化 4.1 产品功能 4.1.1 元数据 元数据产品 MetaOne 采
16、用高内聚、低耦合的组件式产品架构,丰富功能组件,为客户搭建功能强 大的元数据管理平台。向用户全面开放元数据功能调用接口,并提供整套实施方法论。使用户在完成元数 据管理、维护等基础功能的同时,方便实现二次开发,满足行业应用的针对性需求。 基本管理平台(MetaOne Platform) 由元数据仓储、Web 应用程序、元数据接口层、统一数据源管理客户端、元模型操控台以及元数据基 本维护管理功能组成的组件集合,是 MetaOne 产品的基本功能集。 元数据存储库(MetaData Repository) 基于关系数据库的元数据存储库,用于实现元数据的物理存储。 元数据基本维护界面(MetaOne
17、WebAPP) B/S 结构的 Web 管理程序,实现用户对元数据的一般管理、维护操作。 对外服务接口(MetaOne Interface(MOI) ) 一组基于 Java RMI 的 API 集合,内容包括对元数据、元模型的所有基本操作,配套提供使用方 法论,使用户方便调用,实现二次应用开发。 数据产品规则说明书 第 9 页 元数据获取器(MetaData Integration Bridge(MIB) ) 数据源管理平台,对所有连接系统的数据源进行统一管理,实现数据源元数据的抽取和元数据向 MetaData Repository 的导入。 元模型管理控制操作台(MetaOne Consol
18、e) 元模型操控台,用户通过操控台实现元模型建模。 基础应用分析 元数据的基本维护管理功能 高级应用分析 通过元数据接口,调用元数据及相应功能,针对行业需求开发的应用。 4.1.1.1 功能特性 MetaOne 的产品理念,是为用户提供基本功能完善的元数据仓储管理平台,并支持基于平台的应用 服务定制。丰富的调用接口和强大的二次开发指南,保障产品良好的适用性。系统整体在功能上,划分为 存储层、基本功能层、接口层、应用层。 元数据存储层 包含元数据存储库,负责承载不同领域的元模型以及相关的元数据。 数据产品规则说明书 第 10 页 元数据基本功能层 实现系统对元数据的基本功能,针对元数据自身的维护
19、和管理。包括元数据的维护管理、元模型 维护管理,影响分析、血统分析、差异分析等图形展现功能,元数据版本管理、权限管理、日志管理、 质量管理等。 接口层 MOI 为 MetaOne 提供的元数据接口集合,供二次开发对系统各类数据、功能的调用。 应用层 通过 MOI 接口层与元数据存储层实现连接的部分属于应用层。包含两个方面,Metaone 提供的功 能组件 MO Console 和 MIB,以及针对不用同的具体需求开发的应用功能。 4.1.1.2 数据流程 MetaOne 元数据管理系统将涵盖系统数据处理流程各个环节的数据结构等信息读取进来,包括源 系统信息、ETL 过程、数据库结构、数据模型、
20、业务应用、前端展示和门户管理等,并加入业务规则的 描述和业务量值的内涵,下面图示详细介绍数据获取流程信息: 数据产品规则说明书 第 11 页 4.1.1.3 数据获取 MetaOne 元数据管理系统的元数据管理范围,涵盖系统数据处理流程各个环节,各个环节中数据源所 能提供的数据类型、结构都需要相对应的元数据获取方法。MetaOne 元数据管理系统提供统一的数据源管 理平台,平台中集成了针对不同数据类型的元数据获取功能插件,可以将包括源系统信息、ETL 过程、数 据库结构、数据模型、业务应用、前端展示和门户管理等数据源进行统一管理,实现元数据的自动获取。 MetaOne 提供元数据整合获取平台元
21、数据集成桥(Metadata Integration Bridge,元数据集成桥) , 提供自动获取、手工获取两种元数据获取功能,自动获取主流 BI 工具的元数据或手工获取 XMI/Excel 文 件中的元数据。 MIB 具备强大的管理能力和可扩展性,能够对自动获取的数据源进行管理,能够提供自动获取的框架, 在此框架可以扩展自动获取的适配器;对元数据的自动获取提供持续稳定的调度支持,能够按预设的调度 策略触发相应的元数据自动获取过程,同时支持对自动获取过程的日志记录。MIB 体系架构如下图所示: MIB 数据接口 元数据集成桥能够自动获取主流 BI 工具的元数据,并支持通过对 SQL 脚本、T
22、CL 脚本 的词法、语法和语义分析,生成满足 CWM 规范要求的数据处理元数据,存储到 MetaOne 中进行统 一管理。通过 MIB,MetaOne 可自动获取系统项目的相关工具所涉及的元数据,确保元数据及时更新 与业务系统同步,减少人为的手工梳理过程。 数据产品规则说明书 第 12 页 MIB 技术特点 元数据集成桥通过把不同数据源的元数据抽取、转换到统一的元数据系统中,能够实现企业级的 元数据整合、集中和统一,提升系统的元数据管理水平,其技术特点如下: 1. 跨平台:服务器支持 Windows、Unix、Linux(Windows 20002003,Linux,IBM AIX,SUN S
23、olaris),RCP Client 支持 Windows、Linux、Mac OS X 系统; 2. 兼容性:数据存储于主流关系型数据库系统,支持 Oracle,DB2,SQL Server 等; 3. 灵活及易用性:元数据集成桥提供了友好的图形界面,用户只需要配置相应的参数就可以完成本 次导入。用户可以选择需要导入的对象列表,设置过滤规则,选择元数据的根节点,无需要编程 就能够完成各省的特性化需要。 4. 主流开放性:100%JAVA、按 J2EE 模式构建、基于 RCP Client 的客户端架构,采用 XML RPC 和 JSON RPC 通信方式,支持各类编程语言开发的分布式应用程序
24、间的通信,如 C、JAVA、Perl、PHP、.N 等; 5. 全中文化和国际化:界面操作全部显示中文。可以根据需要按照区域化的配置显示客户熟悉的语 言。 6. 后台自动调度: 通过后台调度自动定期执行导入作业。 7. 支持增量导入和自动关系维护:同一个数据源多次导入时,可以支持以增量方式进行导入。减少 数据处理量,提高效率。 8. 自动关系维护:通过元数据的属性或者解析 SQL 的方式,能够自动的建立元数据之间的关系。 9. 支持大数据量: 为了能够支持超大数据量(200M)的元数据导入,系统优化了 XML 解析和数据 比较,并且支持多个 Java 虚拟机(JVM)的数据导入,最大限度的利用
25、了硬件系统的资源。 4.1.1.4 数据模型 元数据管理系统具有独立的元模型管理控制平台,实现元模型的建立、关系的维护等功能。元模 型架构支持国际 CWM 规范、提供行业预定义元模型、支持用户按需完全定制,从而保障用户随着时间推 移对更多种类元数据的管理需要,以及完善现有元数据定义的需要,能满足企业中长期发展的需求,提 高投资回报率。 元模型管理功能包括: 提供图形化元模型管理控制台(Console) 数据产品规则说明书 第 13 页 支持元模型的增加、删除、修改等基本操作 支持标准的 CWM 元模型 支持元模型扩展和自定义 支持继承、关联、依赖等基本关系类型 支持关系类型扩展 支持多业务领域
26、(Domain) 支持跨业务领域的元模型差异分析 以 XML 格式对元模型进行导入导出 4.1.2 数据质量 4.1.2.1 数据质量评估体系 数据质量评估体系主要由两部分组成:数据质量评估维度和数据质量加权计分卡: 数据质量基础评估维度是指对数据质量进行定量或定性评估时所采用的描述数据质量不同方面特 性的评价标准。 数据质量加权计分卡是在数据质量评估维度的基础上,根据业务关键性对各类维度进行权重设定 并计算形成数据质量评分。 数据质量基础评估维度 根据数据用户对数据质量的关注点不同,数据质量特征可分为两类:数据内容质量和数据展示质量。 两类数据质量特征分别具有一套数据质量的基础评估维度。 1
27、. 数据内容质量评估维度: 数据产品规则说明书 第 14 页 2. 数据展示质量评估维度: 数 据 内 容 质 量 评 估 维 度 描 述 低 质 量 数 据 举 例 有 效 性 ( Validity) 数 据 遵 从 定 义 , 取 值 范 围 和 业务 规 则 地 址 缩 写 无 效 , 不 能 代 表 真 实的 地 址 。 唯 一 性 ( Non-Duplication) 不 存 在 多 个 数 据 项 或 冗 余 记录 对 统 一 现 实 实 体 进 行 描 述 一 个 移 动 用 户 存 在 多 条 客 户个 人 信 息 记 录 。 全 面 性 ( Completenes) 所 需
28、要 的 全 部 数 据 都 能 够 被 得 到 , 包 括 所 需 的 数 据 元 素 、记 录 、 数 据 值 动 感 地 带 标 记 为 “是 ”, 但 不存 在 详 细 的 套 餐 信 息 关 系 有 效 性 ( Relationship Validity) 数 据 遵 从 相 关 业 务 规 则 邮 政 编 码 为 海 淀 区 , 但 地 址 为西 城 区 一 致 性 ( Consistency) 在 多 个 数 据 库 中 存 储 的 同 一事 实 数 据 是 相 同 的 统 一 客 户 在 不 同 系 统 中 有 不同 的 名 字 和 地 址 同 时 性 ( Concurency)
29、 对 于 不 同 系 统 中 存 储 的 同 一数 据 的 更 新 是 同 时 发 生 的 。 此评 估 维 度 是 有 关 数 据 流 动 的 度 量 , 考 察 数 据 从 首 次 进 入 一个 库 表 或 文 件 开 始 , 到 进 入 另一 个 文 件 或 库 表 所 需 的 时 间 。 周 一 , 一 位 客 户 在 客 户 信 息 系统 中 更 新 了 地 址 , 但 此 更 新 到周 五 时 才 更 新 到 分 析 系 统 中 。 及 时 性 ( Timelines) 当 数 据 用 户 需 要 使 用 数 据 时 ,该 数 据 可 以 获 得 。 需 要 查 询 某 报 表 时
30、 , 数 据 无 法马 上 获 得 。 事 实 准 确 性 ( Acurate to Reality) 数 据 准 确 反 映 现 实 实 体 一 个 客 户 记 录 中 的 电 话 号 码与 真 实 号 码 不 匹 配 来 源 准 确 性 ( Acurate to Surogate Source) 数 据 与 其 来 源 匹 配 , 如 表 格 等文 档 客 户 填 报 的 数 据 与 系 统 中 的数 据 不 匹 配 精 度 ( Precision) 数 据 的 精 度 , 如 小 数 位 分 项 数 据 先 对 十 分 位 做 四 舍五 入 后 汇 总 , 丢 失 小 数 数 据 衍 生
31、 正 确 性 ( Derivation Integrity) 由 其 基 础 数 据 衍 生 或 计 算 得到 的 数 据 的 正 确 性 渠 道 经 理 年 平 均 业 绩 由 渠 道销 售 收 入 除 以 渠 道 经 理 数 量得 到 , 但 110月 份 有 20个渠 道 经 理 , 112月 新 增 了 10个 渠 道 经 理 。 数据产品规则说明书 第 15 页 数 据 展 示 质 量 评 估 维 度 描 述 低 质 量 数 据 举 例 可 访 问 性 ( Acesibility) 数 据 用 户 得 到 数 据 的 方 便 程度 业 务 用 户 需 要 某 个 指 标 数 据 ,但
32、 必 须 由 技 术 人 员 做 ETL后 才 能 得 到 上 下 文 明 确 性 ( Contextual Clarity) 数 据 展 示 让 数 据 用 户 很 好 的理 解 数 据 的 含 义 , 避 免 歧 义 或 错 误 解 释 。 报 表 标 签 说 明 有 误 可 用 性 ( Usability) 数 据 展 示 可 以 直 接 、 高 效 达 到使 用 目 的 统 计 数 据 需 要 配 图 片 和 文 字说 明 才 更 容 易 理 解 正 确 性 ( Rightnes) 能 够 提 供 正 确 的 数 据 类 型 和达 标 的 数 据 质 量 以 支 持 业 务流 程 全
33、球 通 VIP用 户 申 请 信 息 中没 有 历 史 花 费 记 录 , 无 法 进 行申 请 评 估 。 数据质量加权计分卡 数据质量加权评估计分是根据数据质量评估维度、被评估数据的技术特性和业务特性等等要素对数据 进行分类,对不同类型进行权重值设置,对根据各类数据质量评估维度得出的基础评估量化值进行加权计 算并最终得到数据质量综合水平计分的过程。具体分类方式如下: 数据质量评估维度分类:将上述的基础评估维度进行进一步分类,可得到数据质量六个方面的特 性,即:合理性、一致性、及时性、完整性、唯一性和准确性。 数据技术特性分类:根据数据的来源不同,可以分为基础数据、数据仓库汇总数据、应用层数
34、据 等。 数据业务特性分类:可以根据业务条线对数据进行分类,如市场风险数据、信贷风险数据、操作 风险数据等。 对不同分类设置权值后,即可进行数据质量水平的加权计算。数据质量加权计分卡的总体设计思路示 意图如下所示: 数据产品规则说明书 第 16 页 4.1.2.2 功能框架 数据质量组件包含两块内容:规则制定,质量评估。规则制定是基于咨询数据标准的导入,也包 含企业后续对数据质量规则的制定(数据标准,数据接口,元数据规则等) ;质量评估则是对规则结果 的调整,通过数据评估,制定一整套数据质量管理流程,便于对数据进行修正,对业务规则进行合并, 清理,更好得服务决策和分析。 数据质量加权计分卡 8
35、5 90 95 100 3月 4月 5月 整 改 后 数据 质量 得分 数 业 推 广 与 运 营 质 量 提 升互 联 互 通 专 题 数据产品规则说明书 第 17 页 功能层 应用层 存储层 专项数据质量评估 评估 服务 数据质量问题解决情况评估数据总量质量评估 源系统数据质量评估 评估维度指标 评估规则制定 评估维度指标 评估规则制定 评分规则 数据质量评 估模型 数据质量问 题解决情况 评估模型 功能流 数据预览 数据导出 预警功能 各权重制定 评估规则 业务规则制定 评分规则 验证服务 扩展 服务 报告导出 任务调度 权限管理 外部接口定制 规则跟踪服务 管理 层 4.1.2.3 质
36、量管理 数据质量管理系统通过对 KPI 指标信息进行采集,对监控规则进行设置,对异常信息进行告警, 出具数据质量报告等功能,可以满足企业对高管系统 KPI 指标进行监控的需求。 对于数据质量管理来说,对规则的灵活设置,对任务的及时反馈,对结果的评估,以及和第三方 工具紧密集合是一个产品成败的关键。对于数据质量流程,一般框架如下: 数据产品规则说明书 第 18 页 数 据 需 求 数 据 产 生 数据所有权 数 据 处 理 数 据 存 储 数 据 应 用 数 据 归 档 备 份 数据质量 支 撑 数 据 管 理 目 标 存储管理 数据质量管理系统定义了支撑数据质量监控功能并符合 CWM 标准的元
37、模型结构,包括监控对象、 采集项、采集规则以及监控规则等。其中所涉及的元数据信息如监控对象信息,需要从元数据管理 系统获取。质量管理人员也可以创建新的元数据,来满足质量监控的需要。相关的质量信息存储在 数据质量关系数据库中。 采集管理 数据质量采集模块由采集服务器和采集代理组成,采集代理支持分布式部署,采集服务器对采集 代理进行集中管理,支持的功能如下所示: 代理启动时向服务器注册请求,注册信息包含代理的 IP 地址、通讯端口、进程 ID,启动时间; 代理每个一段时间要向服务器发送心跳检测信号,心跳间隔时间可配置; 代理在允许结束时向服务器发送注销请求; 代理可以支持服务器对代理运行状态的查询
38、; 代理在与服务器中断连接后可以保留已运行完毕检查报告和未运行完的任务状态; 代理负责采集数据,将采集的格式化成质量平台的数据格式,关联相应的监控对象; 服务器集中保管所有的采集配置数据,代理自动从服务器获取相关的采集信息。 规则监控管理 数据质量管理系统的规则包括数据采集规则、监控规则以及告警规则等,因采集规则和告警规则 相对较简单。 监控规则存储在数据质量关系数据库中,包括规则当前信息、历史信息以及变更信息等, 具体 规则可以通过 Quality One 选择,也可以通过前端二次开发,获取更多的详细分析。 数据产品规则说明书 第 19 页 为了实现监控规则的灵活调度及与业务分析过程相结合,
39、规则调度部分支持时间触发调度和规 则依赖调度两种方式,具体说明如下。 时间触发方式,即按照定时触发、循环触发及间隔触发的方式对规则进行调度。如下图所示。 规则依赖调度,即某规则是否执行调度需要判断它的前置条件是否满足,或某规则执行之后,根 据其执行的结果,来决定另一个节点是否执行。此调度方式可支持数据质量问题的逐步探查式分析。 告警管理 数据质量采集和检查过程中发现数据质量问题时,系统会提示某些数据或者规则超过了指定 阀值,系统就对这些数据做告警处理。告警流程,可以通过数据接口的方式,嵌入到数据质量 管理流程中,便于后续做进一步的处理。 在告警时,客户需分析查明告警原因,需要具体的明细数据,系
40、统提供界面查询的接口,也 提供后端文件的接口,便于后续的检查,也可以用于外部前端接口更深入的分析,或者检查历 史趋势。 质量报告 数据管理系统提供数据质量日常管理各种报告,包括数据质量问题相关的各种明细及汇总报告。 质量报告模块集成了内置的图形引擎,支持多种图形的动态展示,如柱状图、饼图、折线图等,可输 出数据表格与图形动态联动的各种数据质量式样, 也可通过提供外部数据接口的方式,输出复杂的 质量报告。 4.1.2.4 质量评估 数据质量评估是指依据数据质量评估任务要求,结合数据质量探查的结果,按照一定规则,对探查 结果进行统计分析,并形成综合评估分析结果的活动,该活动需求包括任务管理、评估规
41、则设置、评估 结果分析等。 数据质量评估师对指定规则设置后的处理流程,如下图所示(一图为审计流程,二图为评估处理流 程) 数据产品规则说明书 第 20 页 源系统数据审计 信息中心数据管控系统数据中心 抽取源系统数据 生成校验结果 数据审计报告 确认审计结果 处理 ? 是 设置校验规则 数据质量处理流程 否 图一 数据产品规则说明书 第 21 页 数据质量问题处理流程 省市信息中心 数据管控系统数据运维人员源系统运维人员 数据质量监控异常 问题记录 是 数据质量问题接收数据质量问题分析 数据源 问题 ? 指派 否 数据质量问题处理 数据质量问题 处理报告 源数据变更流程 源系统程序修改 图二
42、4.1.2.5 质量探查 数据剖析功能 内置丰富的分析评估模型 内置针对指标日常和节假日波动的阈值分析和优化模型、针对指标业务相关性的关联波动分析模 型、针对问题分布的监控覆盖和规则优化分析模型等常用分析评估模型,并且可以根据业务需要进行 扩充。 1. 列分析,对数据源表中的字段的值进行统计。比如:最大值,最小值,唯一值个数,NULL 值的 比例,字段类型,长度,字段格式以及数值分布比例等; 2. 连接分析,对两个表之间的连接列和匹配程度进行分析; 3. 键值分析,分析和检查表的中某 1 列或多列是否符合唯一性约束 高级分析功能 规则管理:支持对数据源表中的字段设置评分权重,以及配置校验规则;
43、 数据产品规则说明书 第 22 页 规则分类:质量监控信息进行规则校验、触发质量告警的计算准则,是判断是否为数据质量问题 的标准,主要包括如下几类: 均差探查 一致性校验规则 自定义检查规则 关联性分析检查 4.1.2.6 支持度分析 数据质量产品功能需求 MetaOne 支持度 说明 系统操作功能 100% 系统服务功能 100% 变更和升级 100% 数据探查 列分析 100% 连接分析 100% 键值分析 100% 复杂规则分析 100% 数据准确性分析 100% 数据一致性分析 100% 数据完整性分析 100% 数据规范性分析 100% 数据参照完整性分 析 100% 其他分析 10
44、0% 质量评估 定义评估任务 100% 跟踪评估结果 100% 评估规则设定 100% 权重设置 100% 评估计算 手工或者自动 100% 基本功能要求 支持第三方 100% 通过接口方 式,需要 ETL 工作 统计报表需求 100% 数据产品规则说明书 第 23 页 用户权限管理需求 100% 安全审计需求 100% 性能说明 100% 其他要求 100% 视情况而 定,可以客 制化 4.2 系统调度 数据管控体系内部任务调度机制采用双模型进行,整体系统调度集合企业数据仓库的统一调度平 台触发平台内部调度机制。 系统调度设计遵循企业 Automation 调度机制,主要是帮助有效监控数据管
45、控体系项目中的关 注风险系统指标规则。 4.3 系统集成 MetaOne 系统根据需要灵活地为其他系统、应用或平台所嵌套集成,以满足业务用户能够就近访问操 作的需要;MetaOne 系统具备该能力,是由于 MetaOne 采用平台架构,提供强大的 API 接口, MOI(MetaOne Interface)是 MetaOne 根据多年元数据建设经验,结合国内元数据应用的实际情况,推出 的一套元数据调用接口(API)集。基于 MOI 层,用户可直接调用元数据或是元数据功能,使系统与 MetaOne 的数据通过数据集成、页面集成、功能集成等形式实现整合。MOI 提供整套的应用开发指南,供 客户根据
46、需求基于系统进行二次开发。 企业数据管控体系系统的源数据包括业务源系统信息,汇聚平台调度脚本及其 DS 等信息,仓库平 台及其数据集市包括 PCRM 集市,CCRM 集市和高管集市系统及其他集市系统,同时,元数据平台也包括企业 报表平台技术元数据。 MetaOne 元数据管理平台与源数据平台,汇聚平台和仓库平台及其报表平台等元数据采集方式都通过 MetaOne 的 MIB 桥接器接口连接,同时,遵守系统建设要不能直接访问生产环境操作机,没镜像环境的系 统,将采用固定格式的数据标准接口进行元数据信息维护。 数据产品规则说明书 第 24 页 第五章 软硬件配置环境 5.1 硬件环境 硬件配置 CP
47、U Intel 至强处理器 主频 2 GHz 或同等级别 CPU x 4-8 内存 8GB 存储 0.5T 主服务器 网络环境 高速光纤互连网络,或 1000M 以上网卡 CPU Intel 至强处理器 主频 2 GHz 或同等级别 CPU x 4-8 内存 8GB 存储 0.5T 备份服务器 网络环境 高速光纤互连网络,或 1000M 以上网卡 CPU Intel Pentium4 主频 2 GHz 或同等级别 CPU x 1 内存 1G 存储 80G 客户端硬件 网络环境 高速光纤互连网络,或 1000M 以上网卡 5.2 软件环境 5.2.1 应用服务器 操作系统 本系统具备良好的跨平台
48、部署能力,支持大多数主流操作系统。通过测试的操作系统有 Windows NT4、Windows 2000 Server 以上、Windows Server 2008,Linux Redhat AS 4,AIX 5 或以 上,HP-UX 10 或以上 数据产品规则说明书 第 25 页 Java 虚拟机 应用服务器端 Java SDK 1.6.0 以上版本 客户机端 Java SDK 1.6.0 以上版本 Web 服务器 Tomcat 6 或以上;系统要求使用包含标准 Servlet 容器的 Web 服务器,与相应的操作系统相 匹配。 5.2.2 数据库服务器 关系数据库软件 MetaOne 支持在主流关系型数据库上部署,支持的数据库包括 Oracle 的 oracle 系列产品、 IBM 的 DB2 以及 MicroSoft 的 SQL server 2008。 Oracle Oracle 10g 以上版本,要求数据库实例的字符集和国家字符集都使用 UTF8 NLS_CHARACTERSET AL32UTF8 NLS_NCHAR_CHARACTERSET UTF8 DB2 DB2 UDB V8 以上 字符集要求 UTF8 MicroSoft SQL Server 2005
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。