结构化大数据通信协议.doc

上传人:h**** 文档编号:663980 上传时间:2018-10-26 格式:DOC 页数:19 大小:192KB
下载 相关 举报
结构化大数据通信协议.doc_第1页
第1页 / 共19页
结构化大数据通信协议.doc_第2页
第2页 / 共19页
结构化大数据通信协议.doc_第3页
第3页 / 共19页
结构化大数据通信协议.doc_第4页
第4页 / 共19页
结构化大数据通信协议.doc_第5页
第5页 / 共19页
点击查看更多>>
资源描述

1、说 明 书- -1结构化大数据通信协议技术领域结构化大数据通信协议是一种通信协议,也是一种让数据成为合格的结构化大数据的技术。结构化大数据通信协议也类似于 ETL,ETL 是处理现有的信息系统所产生的数据的问题,而结构化大数据通信协议是在设计信息系统之初就开始预防数据产生问题。ETL 是为数据治病,结构化大数据通信协议是预防数据产生疾病。ETL 是对现有技术所产生的问题进行小修小补,结构化大数据通信协议提出了新的数据处理方案。结构化大数据通信协议也是一种软件开发模式,利用结构化大数据通信协议所建立的各种信息系统都是大数据信息系统,只要以镜像的方式把各大数据信息系统中的数据上传到大数据中心即可累

2、加成合格的结构化大数据。合格的结构化大数据是不经 ETL 转换即可高效挖掘的结构化数据。背景技术随着大数据时代的到来,人们发现各行各业已有很多信息系统,然而信息系统虽多却不能满足大数据时代的需求,信息孤岛严重,难以互联互通,数据共享困难,各行各业已有很多数据,然而数据虽多,却难以高效挖掘。目前是利用关系数据库来解决这些问题,但只能解决局部的问题,不能从根本上解决问题。结构化大数据通信协议就是针对这些问题而创立的。结构化大数据通信协议来源于模仿大脑记忆、联想、思维,始于 1982年,那时想让计算机模仿大脑的联想功能。发明内容结构化大数据通信协议是通过对数据的优化及软件开发模式的改变而避免信息孤岛

3、问题、互联互通问题、数据共享问题产生,并使数据容易挖掘。结构化大数据通信协议可使数据具有 12个技术特性:“唯一性、归属性、可识别性、独立性、完整性、规范性、与系统的耦合性(耦合度为零) 、结构统一性、可累加性、可移植性、时间性、真实性” ,只有同时满足 12个技术特性的数据才是合格的结构化大数据。发明所要解决的技术问题发明所要解决的技术问题是大数据 4V中“数据类型多(Variety) ”问题及“数据速度快(velocity) ”问题。所针对的具体的技术问题:各行各业已有很多信息系统,然而信息系统虽多却不能满足大数据时代的需求,信息孤岛严重,难以互联互通,数据共享困难;各行各业已有很多数据,

4、然而数据虽多,却难以高效挖掘。有益效果实现互联互通、数据共享容易,查询速度快,数据挖掘容易。具体实施方式结构化大数据通信协议的创新表现在如下 5个方面:1、首次提出了结构化大数据的 12个技术特性,只有同时满足 12个技术特性的数据才能成为合格的结构化大数据。为使数据满足 12个技术特性,创立了与 12个技术特性相对应的 12个数据优化方法。2、通信的基础是双方必须采用同一个协议。结构化大数据通信协议所提出的“结构化大数据的 12个技术特性”就是结构化数据互联互通的“通信协议”。说 明 书- -23、在结构化大数据的每一条数据中都增加了体现“数据的唯一性”和“数据的归属性”的数据项。现有数据库

5、技术由于都是用于处理小数据,都没有考虑这两个数据项的作用,现有的数据中也都没有这两个数据项。这两个数据项是表明一个数据是不是合格的结构化大数据的关键数据项。4、特别强调数据的标准化、规范化。因为大数据环境中,标准化、规范化的数据能自动模仿大脑的联想功能,从而大幅度提高查询数据的速度和灵活性。关系数据库对数据不加任何限制,完全由数据库的设计人员自己定义;结构化大数据通信协议对数据的限制非常严格,绝对不充许设计人员任意定义数据,所有数据都必须是规范的,这也是让大数据容易挖掘的一项重要措施。5、利用结构化大数据的 12个技术特性为大数据的真实性提供保障。小数据只是在某个单位内部使用,大数据是在很多单

6、位之间使用,因此大数据的真实性、公证性、权威、不可悔改性就显得非常重要。结构化大数据通信协议在对数据优化时是以“万能数据结构表”(如表一所示)来存贮数据,“万能数据结构表”可以用一张表存贮各种各样的结构化数据。表一:万能数据结构表存贮数据的例子ID 事物代号 事物属性 事物属性值 超长属性值 单位 附件 时间1099 1280 数据来源 广州第一医院 2014.5.31100 1280 事物分类 病历 2014.5.31101 1280 事物分类 住院病历 2014.5.31102 1280 事物分类 医疗费用 2014.5.31103 1280 身份证号 XXXXXXXXXX 2014.5.

7、31104 1280 住院号 XXXXXXXXXX 2014.5.31105 1280 姓名 张三 2014.5.31106 1280 性别 男 2014.5.31107 1280 中药费 56 元 2014.5.31108 1280 西药费 72 元 2014.5.31109 1280 其它费用 180 元 2014.5.3说明 1:合格的结构化大数据的 12个技术特性及 12个数据优化方法合格的结构化大数据具有 12个技术特性,或者说只有同时满足 12个技术特性的结构化数据才是合格的结构化大数据。结构化大数据通信协议就是使结构化数据满足 12个技术特性的方法。为使数据拥有结构化大数据的 1

8、2个技术特性,结构化大数据通信协议提出了 12种相应的数据优化方法。1、数据的唯一性数据的唯一性:同一事物的各种数据在生存周期中,在不同的信息系统中,都应该是唯一的、可识别的,不能因时间、空间的变化而变成不可识别的数据。数据的唯一性所针对的问题:当前的同一事物的各种数据在不同的信息系统中的表达形式各不相同,在大数据挖掘时难以准确地识别。例如,同一商品,在不同的经销商的信息系统中具有不同的编码;同一患者在不同的医院就医时,患者的住院号各不相同,在大数据环境中查患者病史时,会因为与患者相关的数据没有一个统一的标识码而难以查询。数据优化方法一:让同一事物的所有数据,在不同的时间、空间、环境中,都必须

9、含有一个(或若干个)唯一的、统一的大数据识别码。大数据识别码是数据的身份证、车牌号。大数据识别码与关系数说 明 书- -3据库中的 ID有本质的差异,ID 只是在一张表的范围内标识数据,大数据识别码是在大数据的范围内标识数据。大数据范围:不同的大数据所涉及到的范围不同。在国际贸易中,大数据范围是全球,国家医疗大数据的大数据范围是医疗行业,广州大数据的数据范围是广州市。大数据识别码可分为两种,一种是某个具体事物的识别码,犹如设备的序列号,但与设备的序列号有本质的差异,设备序列号是企业自己编写的,大数据识别码需要按国际统一的标准来编码;另一种是某类事物的识别码。例如,在了解某种型号的手机在各个经销

10、商的销售情况时,就需要该种型号手机的大数据识别码,因为手机由全世界数十万个经销商销售,手机厂家需要与全世界数十万信息系统互联互通。与人相关的数据全应含有身份证号,以确保在全球范围内,在任何时间段,与某人相关的数据都是唯一的,可识别为同一个人的。大数据会涉及到多个不同的信息系统,而小数据只是在同一个信息系统中生存,因此在大数据环境中,数据的唯一性就非常重要,没有统一的、标准的、规范的识别码会导致数据挖掘非常困难。数据的唯一性是大数据挖掘、分析的基础。大数据识别码必须使可以方便数据分类统计。2、数据的归属性数据的归属性:数据不仅要反映事物的各种属性,也要反映出数据是归谁所有(或者说由谁采集、或者说

11、从何而来)。数据优化方法二:每一个事物的数据中都要含有“数据来源”数据项。“数据来源”是结构化数据具有了“归属性”,一般情况下,可用单位名称来表示“数据来源”。大数据源于成千上万家单位,若不标明“数据来源”,在大数据挖掘时会引起识别混乱。3、数据的识别性数据的识别性:是指让信息系统可识别,让人也可识别。进一步而言,不但要让自己的信息系统识别,也要能让他人的信息系统识别,不但要让自己能识别,也要让他人能识别。数据的识别性所针对的问题:关系数据库中的数据只有数据库的设计人员自己和自己的信息系统可识别。其它人、其它信息系统只能通过软件对数据库中的数据进行解释、注释、翻译之后才能识别。数据优化方法三:

12、以适当的冗余使数据可识别,尽量用标准的、规范的自然语言来表达数据,尽量避免用代码来表达数据。在对数据进行优化时的原则是“让相应领域的技术人员能看懂,让别人的信息系统也能识别,而不能只是数据库的设计人员能看懂,也不只是自己的系统能识别。”在大数据环境中,数据的最重要、最关键的一个特性就是“数据的识别性”。关系数据库的一个策略是:尽量减少数据冗余。关系数据库在降低了数据冗余的同时却增加了识别数据的难度。结构化大数据通信协议的策略与关系数据库正好相反。结构化大数据通信协议的策略:以适当的冗余而使数据具有可识别性,从而使数据可以让他人读懂,也让他人的信息系统能识别。关系数据库是一种“数据、数据结构、程

13、序、数据库系统四者密不可分的数据库”。因为关系数据库中的数据脱离具体的表结构和程序以后就变成了无意义的数据,关系数据库中的数据只有在特定的表中才具有意义。“万能数据结构表”是一种“数据与程序无关的数据结构”,或者说是一种“是什么就是什么,与程序无关”。因为“万能数据结构表”中的数据脱离其数据结构后,其数据的真实含义不变。“万能数说 明 书- -4据结构表”中的数据是用标准的、规范的自然语言而表达的,只要懂自然语言,谁都可以看懂“万能数据结构表”中的数据的真实含义。从表面上看,关系数据库减少了数据冗余,这是其一大优点。然而,这也是关系数据库的最大缺点之一。关系数据库在减少了数据冗余的同时,也导致

14、了数据失真。数据失真的结果就导致了“信息交换、信息孤岛、数据挖掘难”等等问题。在关系数据库中,只有通过编写大量的程序,才能解决数据失真问题。无数事实表明,关系数据库因数据冗余问题而付出了非常高昂的代价。当“数据与程序密不可分”时,要存贮、读取、查询数据就必须编写大量的程序。当“数据与程序无关时”,只要编写一个通用的程序,其它人借助这个程序就可以非常方便地存贮、读取、查询数据,而不必每开发一个数据库都开发大量的软件。结构化大数据通信协议的一个原则:基本上不考虑数据冗余问题,以空间换取智能和使用方便,让数据自己说话,而不是让程序替数据说话。而关系数据则是通过应用程序而代替数据说话。用数据代替程序:

15、宁愿增加大量的“冗余”,也要使数据具有独立性、完整性、可识别性。或者说为了使数据具有独立性、完整性、可识别性,不考虑数据冗余问题,无论增加多少冗余都可以。在用关系数据库设计信息系统时,总是用程序来解读数据库中的数据。这种策略所带来的严重恶果就是在处理数据时需要编写大量的程序,不编写程序就无法处理数据。 结构化大数据通信协议的策略:不惜一切代价,让数据自己说话,杜绝用程序当翻译!“让数据自已说话”的目的是:无论把一个数据放到任何地方、任何环境中都能独立地、完整地表达出同样的、完整的含义。在大数据时代,一个数据会出现在不同的信息系统中,因此,必须确保数据在不同的信息系统中、不同的环境中都有相同的含

16、义。结构化大数据通信协议使数据具有“独立性、完整性、识别性、唯一性、归属性”的目的就是让数据自己说话,在大数据环境中,这样可以大幅度地减少编写程序的数量。关系数据库中的数据没有独立性,也没有完整性,关系数据库做不到“让数据自己说话”。关系数据库中的数据需要借助各种“关系”才能表达出完整的含义。结构化大数据通信协议可以让数据自己说话,而关系数据库中的数据需要配备“七大姑八大姨”的“关系”才能准确地表达出相应的含义。关系数据库的“七大姑八大姨”的“关系”:数据与数据库系统具有密不可分的关系,数据与表结构具有密不可分的关系,数据与应用程序具有密不可分的关系,数据与数据库中的众多表之间具有密不可分的关

17、系。关系数据库中的数据必须依靠关系数据库系统、数据结构、数据类型、应用程序才具有意义。当关系数据库系统中的数据脱离了相应的关系数据库系统、数据结构、数据类型、应用程序之后就变成了无意义的数据。当前的信息系统所存在的“信息孤岛问题、信息交换问题、数据接口问题、互联互通问题、系统的升级换代问题”等等,都是由于关系数据库系统中的数据不能自己说话而造成的。用关系数据库系统设计电子病历系统时,对“患者基本情况”会采用如下形式:表二:患者基本情况表(关系数据库中的表)ID HZXM GZDW ZB XB ZZ NL RQ HF BXRQ MZ CSZ26 胡凤 橡胶厂 工人 0 蒙古路 2 号 32 19

18、91-4-3 已 1991-4-3 汉 本人上述形式的数据是小数据时代的经典结构形式。其实“字段名”也是很重要的信息,必须用标准的、规范的自然语言来描述。“患者基本情况”经过结构化大数据通信协议进行优化之后,在“万能数据结构表”中的表达形式:说 明 书- -5表三:患者基本情况表(万能数据结构表)ID 事物代号 事物属性 事物属性值 超长属性值 单位 附件 时间100 1001 数据来源 上海市第一医院 101 1001 事物分类 病历 102 1001 事物分类 住院病历 103 1001 事物分类 入院病历 104 1001 事物分类 患者基本情况 105 1001 患者编号 SH10-1

19、99103Z21 106 1001 健康卡号 XXXXXXXXXXXX09 107 1001 身份证号 XXXXXXXXXXXXXX 108 1001 姓名 胡风 109 1001 工作单位 上海橡胶厂 110 1001 职别 工人 111 1001 性别 女 112 1001 住址 蒙古路 20 号 113 1001 年龄 32 114 1001 入院日期 1991-4-30 115 1001 婚否 已婚 116 1001 病史采取日期 1991-4-30 117 1001 民族 汉 118 1001 病情陈述者 本人 通过上述两张表的对比发现,用“万能数据结构表”所表达的信息是一种完全用自

20、然语言所表达的不失真的信息,这种信息无论放在什么地方其含义都是一样的。从表面上看用“万能数据结构表”所存贮的信息会多占据一倍左右的存贮空间,但这样存贮数据可以减少很多复杂的数据抽取、转换工作。“万能数据结构表”中的“数据冗余”就是让“数据自己说话”,让数据不依赖数据库系统、不依赖数据结构,不依赖数据类型,不依赖应用程序。结构化大数据通信协议的策略是“以空间换智能及使用方便”。与 30年前相比,目前硬盘的存贮容量已提高了 10万倍以上,多占据一倍左右的存贮空间的代价很低,可以忽略不计。“让数据自己说话”就是让数据犹如自然语言那样,可以准确、无误地表达应有的含义,不需要注释,也不需要应用程序的解读

21、。4、数据的独立性数据的独立性:数据不依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而独立地表达出某种含义。针对的问题:关系数据库中的数据不具有独立性,需要借助于注释、数据结构、应用程序才能解读数据的含义。关系数据库中的很多表的字段名用的是不规范的字母缩写,在呈现给用户时,需要通过信息系统为表加上表头才能表达出数据的真正含义。数据优化方法四:通过一定的数据冗余而是数据可以自己说话,让“数据不依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而独立地表达出某种含义”,如上表三所示的万能数据结构表可实现数据的独立性。5、数据的完整性数据的完整性:数据不依靠数据库系统、不依靠数据

22、结构、不依靠注释、不依靠应用程序而完整地表达出某种含义。说 明 书- -6针对的问题:关系数据库中的数据不具有完整性,需要借助于注释、数据结构、应用程序才能解读数据完整的含义。数据优化方法五:通过一定的数据冗余而是数据可以自己说话,让“数据不依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而独立地表达出某种含义”,如上表三所示的万能数据结构表可实现数据的独立性。6、数据的规范性数据的规范性:数据应为标准的、规范的、统一的、无歧义的。针对的问题:当前的各种信息系统中的数据不规范导致数据挖掘非常困难。数据优化方法六:应在信息系统设计、数据采集阶段就确保数据是规范的。数据的规范性需要建立在

23、“国标大数据标准、国家大数据标准、行业大数据标准”的基础之上,而不是建立在某个单位内部的数据标准、规范的基础之上。只有符合“国标大数据标准、国家大数据标准、行业大数据标准”的规范的数据才有资格成为合格的结构化大数据。当前的问题是各家单位的数据规范只是自己制订的,各不相同,没有“国标大数据标准、国家大数据标准、行业大数据标准” ,这是阻碍大数据发展的一个大障碍。有了标准、规范,并按标准、规范执行,那么在对大数据进行挖掘时,不再需要 ETL。如何体现结构化大数据的规范性:在设计信息系统时就要考虑数据的规范性,在采集、生成数据时,必须严格按照“国标大数据标准、国家大数据标准、各行各业大数据标准”输入

24、数据、生成数据,只有这样,信息系统所生成的数据才是规范的数据。各行各业的数据的标准化、规范化是一项工程量巨大的工程。只有做好这项工作,才能确保“结构化大数据的规范性” 。数据的标准化是大数据的基础。可以说没有数据的标准化就没有合格的大数据。大数据工程,标准先行。从某一方面而言,由于目前国际上、国内的各行各业都未能做好数据标准化工作,所以目前根本就没有合格的大数据!“信息系统名、数据库名、表名、字段名、数据库中的数据”都要用标准的、规范的、统一的自然语言,尽量避免使用不规范的代码,这是让数据自然形成“联想关系”的关键,也是实现万能查询的关键。这也是结构化大数据通信协议主张数据规范化的一个非常重要

25、的原因!在大数据环境中,这种“联想关系”可为数据挖掘带来极大的便利,可以大幅度地提高查询数据的速度。关系数据库理论对数据基本上没有任何限制,全部由设计人员任意定义。这是关系数据库中的数据非常难以挖掘的一个根本原因。结构化大数据通信协议对数据的要求、限制非常严格。严格要求数据必须是标准的、规范的、统一的,必须满足 12个技术特性,每一个数据都必须严格符合国际标准、国家标准、行业标准。严禁设计人员任意私自定义数据。数据犹如通用机械地零部件,必须标准化才可以。大数据标准涉及到每一个行业,也涉及到各种各样的业务。大数据标准涉及数据的标准、数据结构的标准、业务的标准、业务流程的标准、信息系统标准等。在大

26、数据时代,一定要在信息系统中采用统一的、标准的、规范的自然言,尽量避免用代码。这是确保数据独立性、数据的完整性和数据的识别性,降低数据与系统的耦合度的必要措施。7、数据与系统的耦合性说 明 书- -7数据与系统的耦合性:数据与系统的耦合度越高,数据对系统的依赖程度就越高。当数据对系统的依赖程度比较高时,数据一旦脱离了原有的系统就变成了无意义的数据。如果说一个数据不需要任何信息系统的解读,用户就能读懂,那么该数据与信息系统的耦合度为零。针对的问题:关系数据库中的数据与信息系统的耦合度非常高。关系数据库中的数据与数据库系统、与数据结构、与应用程序是密不可分的,关系数据库中的数据一旦脱离了原信息系统

27、到了大数据环境中之后,就变成了无意义的数据。数据优化方法七:必须确保每一个数据与信息系统的耦合度为零。以适当的数据冗余而使数据具有独立性、完整性、识别性、规范性、唯一性、归属性,以数据的独立性、数据的完整性、数据的识别性、数据的规范性、数据的唯一性、数据的归属性而确保每一个数据都是与信息系统耦合度为零的数据。大数据的数据来源于成千上万家单位的系统,因此,大数据中的数据应该是与系统的耦合度为零的数据,否则就需要编写很多的应用程度来解读数据,这会增加处理数据的难度、成本。人们用自然语言所编写的各种文章就是相应专业的人员可直接读懂的,不需要任何的信息系统的解读,因此,这种数据与信息系统的耦合度为零。

28、在大数据中,其数据量数以千亿条计,如果其中的每一个数据都与系统都有一定的耦合度,那么就需要编写海量的程序才能解读大数据。如果说大数据中的每一个数据都是与信息系统的耦合度为零的数据,那么在处理大数据时,就不必再编写任何程序对数据进行解读。关系数据库的设计者习惯用代码来表示各种数据。例如,有的设计人员用“0”代表女性,用“1”代表男性,而有的设计人员用“W”代表女性,用“M”代表男性。面对成千上万的信息系统所产生的数千亿条以上的数据,这种不标准、不规范的代码就会为大数据挖掘带来巨大灾难。用关系数据库所建立的信息系统之所以会产生严重的信息孤岛问题,一个重要原因在于关系数据库中的数据是不完整的、不独立

29、的、难以识别的。关系数据库是用各种“关系”来表达各种事物间的关系。关系数据库中的数据与关系数据库系统、表结构以及相应的应用程序密不可分,一旦分开,关系数据库中的数据将会变成无意义的数据,正是这种“关系”导致关系数据库必然产生“信息孤岛”。“万能数据结构表”中的数据与数据库系统、表结构及应用程序无关,可以完全脱离数据库系统、表结构及应用程序而独立地存在。“表一”中的数据是经过结构化大数据通信协议进行优化后的数据,这样的数据即使脱离表结构也能表达出原来的含义。大数据的原则:尽量避免代码,尽量用标准的自然语言。判断数据是不是合格的大数据的方法:与信息系统耦合度为零的数据才有资格成为合格的大数据。推论

30、:由于当前的关系数据库中的数据全部都是与信息系统密切耦合的数据,所以当前的关系数据库中的数据都不是合格的大数据。8、数据结构的统一性数据结构的统一性:合格的结构化大数据的数据结构必须是统一的。目前只有“万能数据结构表”可以使数据实现“数据结构的统一性”。针对的问题:各个关系数据库中的数据的数据结构各不相同。数据优化方法八:结构化大数据通信协议利用“万能数据结构表”(如下表四所示)来实现数据的“数据结构的统一性”。结构化大数据通信协议不充许设计人员设计任何数据结构,所有结构化数据都说 明 书- -8必须存贮在一张,或若干张结构完全一样的、标准的、统一的表中。用关系数据库理论做不到数据结构的标准化

31、。表四:万能数据结构表可实现数据结构的统一性ID 事物代号 事物属性 事物属性值 超长属性值 单位 附件 时间100 1001 数据来源 上海市第一人民医院 101 1001 事物分类 病历 102 1001 事物分类 住院病历 103 1001 事物分类 入院病历 104 1001 事物分类 患者基本情况 105 1001 患者编号 SH10-19910430Z21 106 1001 健康卡号 XXXXXXXXXXXXX09 107 1001 身份证号 XXXXXXXXXXXXXXX 108 1001 姓名 胡风 109 1001 工作单位 上海橡胶厂 110 1001 职别 工人 111

32、1001 性别 女 112 1001 住址 上海市蒙古路 20 号 113 1001 年龄 32 114 1001 入院日期 1991/4/30 115 1001 婚否 已婚 116 1001 病史采取日期 1991-4-30 117 1001 民族 汉 118 1001 病情陈述者 本人 10000 52367 数据来源 广州动物园10001 52367 事物分类 动物管理系统 10002 52367 事物分类 企鹅 10003 52367 事物分类 帝企鹅 10004 52367 事物分类 动物档案 10005 52367 大数据识别码 GZQE0003 10006 52367 名字 汉武

33、帝 10007 52367 购入日期 2013-3-21 10008 52367 身高 1.2 m 10009 52367 体重 20 kg 10010 52367 出生日期 2011-4-2 10011 52367 照片 JPG 10012 52367 笼舍编号 098 10013 52367 管理员 张三 10014 52367 父 GZQE0001 10015 52367 母 GZQE0002 10016 52367 性别 雄 关系数据库的最大问题就是数据结构不标准。关系数据库理论对数据结构没有任何限制,完全由设计人员自由定义数据结构。数据结构标准化是处理大数据的基础,数据结构不标准会导

34、致数据处理非常困难。9、数据的累加性说 明 书- -9数据的累加性:是指“使数据可以(犹如图书那样)不经任何处理即可累加在一起”。针对的问题:当前的关系数据库系统已产生了很多数据,然而这些数据都不能累加成大数据。数据优化方法九:数据的累加性可通过“数据的唯一性、数据的归属性、数据的识别性、数据的独立性、数据的完整性、数据的规范性、数据与系统的耦合性、数据结构的统一性”来实现的,也可以说只有同时拥有这些属性的数据才具有累加性。传统的写在纸上的信息具有可累加性,图书馆就是众多图书之和,档案馆就是众多档案之和。数据若具有累加性,那么,广州市政府各部门的数据全部以镜像方式集中存贮到云平台之后就等于建立

35、了广州市大数据,全国 97.8万家医疗机构的所有数据全部以镜像的方式上传到国家医疗大数据中心就等于建成了国家医疗大数据。可惜的是,当前的各种信息系统中的数据不具有累加性。10、数据的移植性数据的移植性:“无论把数据移植到任何环境中,数据都能保持原有含义不变,能让各种信息系统识别,能让用户识别”,这样的数据才具有移植性。针对的问题:用关系数据库所建立的信息系统难以互联互通,即一个系统中数据不能移植到另一个系统中。数据优化方法十:数据的移植性是通过“数据的唯一性、数据的归属性、数据的识别性、数据的独立性、数据的完整性、数据的规范性、数据与系统的耦合性、数据结构的统一性”来实现的,也可以说只有同时有

36、具有这些属性的数据才具有移植性。数据的移植性关系到信息系统的互联互通。具有移植性的数据才能任意地在各个系统之间互联互通。数据的移植性与数据的累加性是一样的,具有移植性的数据也具有累加性,只是数据的移植性是用来体现数据是否可以在各个系统之间互联互通,数据的累加性指的是能否把众多的小数据累加成大数据。11、数据的时间性数据的时间性:大数据中的每一个数据都应有相应的时间。数据优化方法十一:为每一个数据增加时间戳。12、数据的真实性数据的真实性:小数据犹如自己记帐而产生的数据,大数据犹如不同单位之间的资金来往而产生的数据,因此大数据的真实性就是非常重要的。数据优化方法十二:必须把数据防伪、数据防篡改当

37、作重要工作,可通过第三方认证、第三方公证、第三方数据备案的方法使数据的真实性得到保证。说明 2:数据的唯一性是实现“数据全球通”的基础在班、组这样的小环境中可以用每个人的姓名而区分出每一个人,然而在全国范围内,由于人数太多,重名的很多,因此仅靠姓名就不能准确无误地识别出每一个人。大数据时代以前的关系数据库中的数据只是应用于某个机构内部,因此各个数据就容易识别,然而如果把关系数据库中的数据放到大数据环境中,那么这些数据就成了不可识别的数据。在大数据环境中,有关人的所有数据都必须含有“身份证号”,这是为了表明数据的唯一性。关系数据库用“ID”来表明每张表中的数据的唯一性。关系数据库所考虑的只是一张

38、表中的数据的唯一性问题,而未考虑大数据环境中的数据唯一性问题。例如,在很多医疗信息系统中,只是用“门诊说 明 书- -10号”、“住院号”来标识患者的信息,而未含有患者的身份证号。如果要在国家医疗大数据环境中查询某个患者的病史数据,那么,就会由于患者的数据中未含有身份证号而为查询造成非常大的困难,因为患者的病史数据有可能包含在全国 97.8万家医疗机构所产生的数百万张以上的表中。在大数据环境中,每个事物的数据的“数据的唯一性”就是一个非常重要的问题。“数据的唯一性”是确保数据在大数据环境中具有“数据的识别性”的一个关键。例如,在生产厂家、经销商的信息系统中,同一件商品的代号都必须是全球唯一的、

39、统一的、标准的,这样才能确保在大数据环境中数据是可识别的。然而,目前国际上还未做到这一点,各家企业的信息系统都有自己的编码方式,各不相同,针对同一种商品,不同企业的编码是不一样的,这为数据的全球通及大数据分析造成了很大的困难。合格的大数据应该是:在药店买一盒药,可以根据这盒药上面的唯一的编码而查询到这盒药的整个生产、流通环节各种相关情况,是哪个厂家生产的,何时生产,何时出厂,中间经过了哪几个中间商。世界经济最需要的是“数据全球通”,即全球所有企业的信息系统中的各种数据都可以“互联互通”,或者说“全球任何两个企业的信息系统之间都可以及时地发送、接收任何商品的数据。”当前的实际情况是:每家企业都有

40、独有的产品编码规则,当企业接到订单时,还需要手工把订单数据转换为自己的信息系统可识别的数据,然后自己的系统才能处理客户的订单数据,只有极少数的企业的信息系统可以直接处理上游企业发来的数据。这种“全球数据都不通”的现象的根本原因就在于当前的数据缺乏“数据的唯一性”,没有国际统一的、标准的商品编码标准为“数据的唯一性”提供支持。要跟踪一种商品在世界各地的流通情况,“数据的唯一性”是基础。一种商品的数据会出现在全球数百万个企业的信息系统中,只有体现“数据的唯一性”的大数据识别码才能准确无误地从数百万个信息系统中把这种商品的数据识别出来。全球大数据统一编码、解码(可称作为大数据识别码)是大数据中的一项

41、非常重要的工作,也是一项非常复杂的工作。在国际贸易中订单、商品的全球统一编码、解码就非常重要,这是商品“数据全球通”的基础。对企业而言,在大数据时代,订单、商品数据的国际标准、国家标准、行业标准是全球企业实现“数据全球通”的基础。没有订单、商品的标准,企业就不能进入到大数据时代。说明 3:数据的归属性是区分大数据与小数据的一个关键如果从关系数据库理论的角度来看,增加“数据来源”会使系统中产生大量的冗余数据。然而,在大数据时代,所要处理的数据来源于数百万个以上的信息系统,因此,就非常有必要说清楚各个数据从何而来,不然,就无法区分众多的数据。在大数据环境中,“数据来源”就是非常关键的数据,也是必不

42、可少的。在大数据中,为每一个数据都增加“数据来源”数据项的目的就是让数据无论在哪里都能独立地、完整地表达出其完整的含义。数据如物,人类社会的各种物都有其主,数据也应有其主。区分大数据与小数据的一个关键指标就是数据中是否含有“数据来源”。凡是不含有“数据来源”的数据都是小数据,都是不合格的结构化大数据,这是关系数据库高手很难理解的,然而这也是数据库技术人员的思想观念是否已转到大数据时代的一个标志。大数据所面对的是:数十万家以上的单位,数百万个以上的信息系统,数千万以上的表,数万亿以上的数据。在大数据环境中,没有“数据来源”就会引起大混乱。在大数据时代,有了“数据来源”可以大幅度减少编写程序代码的行数,在数据交换时就需要有“数据来源”,数据共享时,需要有“数据来源”。说明 4:数据的标准化、规范化是实现万能查询的关键

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 经济合同

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。