1、 自标准数据架构设计初探 王权、夏艳波、张彦国、田鹏、唐力伟 自标准数据定义:所谓自标准数据 =数据体 +数据格式 (数据体解释 )。 自标准数据也是标准,它是局部自治的标准。其用于描述数据的标准定义语言,是遵循自标准数据描述定义标准的。 在自标准数据体系结构中建议包含: 数据标准定义语言 数据港口 数据泵 数据规则 标准解析引擎 数据港口组件 港口链路 所谓自标准数据体系是指,对自标准数据概念的标准模型。 自标准数据体系实现遵循原则 : Open;整个体系结构中,所有数据体 中数据均完全。使得所有数据使用者可方便调用。 自治 ;自标准数据中,标准是采用自治管理方式。也就是自标准数据中,标准是
2、可以进行变更的,标准变更意味数据同时按照变更后标准提供,是数据提供方对数据进行的描述。 简单标准 ;自标准数据遵循简单原则,数据定义过程中,数据的标准定义使用简单标注。减少数据使用繁琐度。 集中管理关键 ;整个体系结构中,仅对各数据来源单位的服务 ID信息、自标准数据体、数据缓存周期、数据权限进行管理。其他数据具体业务不进行过度干预。 即插即用 ;自标准体系中,凡遵守 数据描述定义语言标准 的自标准数据所 有数据供应商接入即可使用。 即使数据提供商对数据未进行任何标准定义的私密数据,由使用者自行解决对应数据体。 适配 ;自标准体系中,数据港口可提供一定的自标准数据适配功能。保障数据体标准变更后
3、,可提供部分自动适配功能。使所有数据使用者避免由于标准变更产生更大的变更活动。 自发展 ; 搜 索 引 擎 B 系 统数据抽取泵数据推送泵对 外 数 据 接 口文 本 、 关 系 数据 库 、 e x c e l自 标 准 S D K , 将数 据 变 为 自 标准 结 构A 系 统对 外 数 据 接 口W e b s e r v i c e 、j s o n 、 X M L自 标 准 S D K , 将数 据 变 为 自 标准 结 构数据抽取泵数据推送泵C 系 统数据抽取泵数据推送泵对 外 数 据 接 口二 进 制 文 件 、加 密 数 据 等 等自 标 准 S D K , 将数 据 变 为
4、 自 标准 结 构X 系 统数据抽取泵数据推送泵对 外 数 据 接 口基 于 通 讯 协 议的 其 他 数 据自 标 准 S D K , 将数 据 变 为 自 标准 结 构数据码头码 头 管 理安全管理供应者管理使用者管理存储管理规则管理数据质量管理资 源 管 理数据管理码头管理标准管理数据域定义配套工具认证管理服 务 管 理订阅服务数据服务报警服务推送服务标准服务证书服务引 擎 管 理数据分析数据适配有效性管理解析引擎数据巡检配 套 工 具标准生成器码头组件手工填报SDK数据泵组件标 准 定 义 语 言 管 理信 用 管 理1. 数据标准定义语言 数据标准定义语言是由总体平台框架 定义的对数
5、据体进行自描述的语言结构。 数据标准定义语言应能够尽量对数据进行描述,除了因技术或其他原因计算机无法描述的部分由用户描述,由用户描述的部分应越少越好。 可以考虑 xml 风格的描述,通过自定义标签的方式实现。技术来说这样的标签数量上不应超过 20 个。这方面非常期望能参考袁满老师的意见。 其中必须包括 广义元数据 定义: 名称( Title) 标识: Title 定义:分配给资源的名称。 解释:使资源为众所周知的有代表性的正规名称。 创作、制作者( Creator) 标识: Creator 定义:制作资源内容的主要责任 实体。 解释:创作、制作者包括个人、组织或机构。 应该是用于标识创作、制作
6、者实体的具有代表性的名称。 主题及关键词( Subject and Keywords) 标识: Subject 定义:资源内容的主题。 解释:用以描述资源主要内容的关键词语或分类号码表示的有代表性的主题词。 说明( Description) 标识: Description 定义:有关资源内容的说明。 解释:该说明可以包括但并不限于:摘要,内容目次,内容图示或内容的文字说明。 出版者( Publisher) 标识: Publisher 定义:制作资源 有重要作用的责任实体。 解释:如包括个人、组织或机构的出版者。 应是用于标识出版者实体的有代表性的名称。 发行者( Contributor) 标识
7、: Contributor 定义:对资源内容负有发行责任的实体。 解释:发行者包括个人、组织或机构。 应是用于标识发行者实体的有代表性的名称。 时间( Date) 标识: Date 定义:与资源使用期限相关的日期、时间。 解释:资源产生或有效使用的日期、时间。 类型( Type) 标识: Type 定义:资源内容方面的特征或体裁。 解释:类型包括种类、功能、体裁或作品集成级别 等描述性术语。推荐从可控词表(如Dublin Core TypesDCT1)中选用有关术语。对于资源物理或数字化方面表示,采用 “格式“项描述。 格式( Format) 标识: Format 定义:资源物理或数字化的特有
8、表示。 解释:格式可包括媒体类型或资源容量。也可用于限定资源显示或操作所需的软件、硬件或其它设备,如容量包括数据所占空间和存在期间。 标识( Identifier) 标识: Identifier 定义:依据有关规定分配给资源的标识性信息。 解释:推荐使用依据格式化标识系统规定的字符或号码标识资源。 如正规标识系统包括统一资源标识( URI),统一资源地址( URL)、数字对象标识( DOI)以及国际标准书号( ISBN)、国际标准刊号( ISSN)等。 来源( Source) 标识: Source 定义:可获取现存资源的有关信息。 解释:可从原资源整体或部分获得现有资源。建议使用正规标识系统确
9、定的字符或号码标引资源来源信息。 语言( Language) 标识: Language 定义:资源知识内容使用的语种。 解释:推荐使用由 RFC1766定义的语种代码,它由两位字符(源自 ISO639)组成。随后可选用两字符的国家代 码(源自 ISO 3166)。如 “en“表示英语, “fr“表示法语。 相关资源( Relation) 标识: Relation 定义:对相关资源的参照。 解释:推荐用依据正规标识系统确定的字符或号码标引资源参照信息。 范围( Coverage) 标识: Coverage 定义:资源内容的领域或范围。 解释:范围包括空间定位(地名或地理坐标),时代(年代、日期或
10、日期范围)或权限范围。 版权( Rights) 标识: Rights 定义:持有或拥有该资源权力的信息。 解释:版权项包括资源版权管理的说明。 2. 数据港口 数据港口是 不是数据中心,它是物流中心,是用于数据交换与流通的,仅存储少量数据,它不是资产。数据描述定义语言标准 、 数据港口、数据泵是总体结构中不可或缺的部分。港口拥有唯一带解析规则的港口 ID,类似于 KKS 码格式。 区别于常用的搜索引擎,自标准的搜索引擎是精确搜索的,供计算机使用的搜索引擎。它能够主动收集和消化数据,会适应数据、数据源的产生和消逝。数据港口上存放的数据不是资产而是流动的数据,是中间环节,是信息交换的平台。数据港口
11、的数据具有短存储,非资产的特性。这些数据只是为了数据交换而短暂存贮在数据港口,即使这些数据丢失 也不会直接影响生产。数据港口的数据主要包含被供应数据、数据交换、被使用数据。数据除了其内容本身外,最少应包含标识和名称,其中标识是由数据码头产生的。标识( ID)的生成规则是数据港口核心的算法之一。有句话说数据多了就智能,在数据港口堆放的数据会形成数据生态的基础。数据港口会提供数据热点等服务,提示某些热区数据具有一致性,需要标准化。这样整齐堆放的数据会被促使逐步形成标准,并且这些标准会自我完善和自我改进。 数据港口中定义包括: 资源管理 资源管理可以理解为,所有数据供应商提供出来的所有内容均为资源,
12、资源分类大 致包括: 数据管理 :当前港口存放的数据相关信息的管理设定。包括数据所有特性(例如:版本、数据项、发行者、有效期)等。 同时,对供应商接入的数据登记,并对其数据设定存储区域、存储空间、存储周期管理、数据质量审查。 标准管理 港口管理 认证管理 提供商资源:连接信息、服务类别、服务范围、服务清单。 数据资源: 标准资源:已有遵循 数据描述定义语言标准的反复使用多次的标准定义 清单。 港口资源:已挂接在本港口上的港口链路。用于对多个数据港口间进行数据交换时适用。 . 资源检索 :对数据资源的检索利用引擎。检索引擎中 至少包括: 全港口 (全文 )检索 定向资源检索:定向资源即定向资源类型、以及资源类型的高速检索。例如:产量指标 数据检索规则:用于定向资源检索优先级序列排名。排名算法根据数据参数范围决定,例如:产量指标在特定的语义空间内,含义差异。小队跟集团的语义环境就有差异。检索系统就来源多个环节。 权限管理 :至港口中所有资源的权限分配管理。 权限分配也是权限的一部分。 数据港口链路 :港口链路用于实现多个数据港口之间的数据共享与交换。其港口链路过程中,均需要交换并登记对方港口的数据资源、标准资源列表等信息。 港口管理 :提供港 口的配套管理功能。 数据服务 :数据港口中所有的存在于数据港口中的数据对数据港口本身是完全开放的 (仅有少量数据是由数据提供商指定了数据