大学论文:大数据质量评价体系的构建研究.docx

上传人:龙*** 文档编号:146601 上传时间:2018-07-11 格式:DOCX 页数:32 大小:79.18KB
下载 相关 举报
大学论文:大数据质量评价体系的构建研究.docx_第1页
第1页 / 共32页
大学论文:大数据质量评价体系的构建研究.docx_第2页
第2页 / 共32页
大学论文:大数据质量评价体系的构建研究.docx_第3页
第3页 / 共32页
大学论文:大数据质量评价体系的构建研究.docx_第4页
第4页 / 共32页
大学论文:大数据质量评价体系的构建研究.docx_第5页
第5页 / 共32页
点击查看更多>>
资源描述

1、 I 大数据质量评价体系的构建研究 摘 要 大数据时代到来了。我国的国情决定了集中掌握着资金、人力、政策等资源优势的政府部门当仁不让的成了推进大数据发展的主体,也成了经现代化信息技术关联分析后发现新知识、创造新价值的研究客体,其数据质量更是重中之重,关系到大数据最终的运算结果。而质量评价体系的建立有助于确定数据质量标准化,规范的政府大数据的科学性管理,引导新的契合大数据技术手段的信息基础建设具有重要意义。 本文从现有的数据质量评价体系出发,结合大数据的四大特性,将 17 个与政府大数据质量相关的二级指标按照数据源质量、数据规模质量、数据结构质量、数据时效质量、数据价值密度质量这些维度进行划分,

2、确定了五个维度。并对每个二级指标进行了系统的梳理,确立了从政府部门、 受访者 、制度性因素三个方面建 立的具体指标,共计有 51 个指标。然后对给出的各数据质量评价指标的满意度打分进行主成分分析,剔除了 13 个指标,完成对该质量评价体系的修正和完善。 通过上述研究,本论文得出了以下结论:在政府大数据质量评价中,政府数据的数据源质量依旧十分关键,是政府大数据质量的重中之重;数据的时效性质量在政府大数据特征质量中最为重要,这体现了政府大数据对运算高速性的要求。 关键词: 大数据 政府数据 质量评价体系 II Research on the construction of large data q

3、uality evaluation system ZhangYang Directed by QiuShuangyue Abstract Big data era, in the situation of our country have capital, manpower, policy resources of government departments have become the main body to promote the development of big data , has become the analysis of Modern Information Techn

4、ology Association after the discovery of new knowledge and create new value of the research object, the data quality is the priority among priorities, in relation to the final result of big data. And the establishment of the quality evaluation system is helpful to determine the quality of the data s

5、tandardization, the scientific management of the governments big data, and to guide the new information technology infrastructure is important. This paper from the data quality evaluation system of the existing four, combined with the characteristics of big data, the 17 related government data quali

6、ty level two indexes according to the data source, data quality, data quality scale structure quality, data quality, data aging value density quality of these dimensions are divided and identified five dimensions. And each of the two levels of the index system, the establishment of the government de

7、partments, the respondents, the institutional factors of the three aspects of the establishment of specific indicators, a total of 51 indicators. After the initial establishment of the system, the application of the evaluation system for large data users of the government. In this paper, the princip

8、al component analysis of the satisfaction score of each data quality evaluation index is given, and 13 indexes are eliminated. Through the above research, this paper draws the following conclusions: in the evaluation of the quality of government data, government data quality is still very important,

9、 is the priority among priorities of government big data; timeliness of quality data in the government big data quality is the most important feature, which reflects the requirements of the government of big data high speed. KEY WORDS: Big data Government data Quality evaluation system 目录 摘 要 . I 英文

10、摘要 . II 前 言 . 1 1 相关理论 . 2 1.1 大数据的概念 . 2 1.2 现有的 大 数据质量评价体系 . 2 2 政府大数据质量评价指标体系的构建 . 3 2.1 政府大数据质量评价指标的确立和指标体系的构成 . 3 2.2 大数据质量评价指标的量化 . 5 3研究方法的选取 . 6 3.1 因子分析法概述 . 6 3.1.1 因子分析法的定义 . 6 3.1.2 因子分析法的步骤 . 6 3.2 主成分分析法概述 . 7 3.2.1 主成分分析法的定义 . 7 3.2.2 主成分分析法的一般分析步骤 . 7 3.3 因子分析法和主成分分析法的比较 . 7 3.4 主成分分

11、析法在本研究中优势 . 8 4 政府大数据质量评价指标体系的 主成分分析 . 8 4.1 数据的来源 . 8 4.4 主成分的选取 . 9 4.3 主成分得分与权 . 10 4.4 各变量最终得分 . 14 5 结论与 建议 . 17 5.1 结果分析与结论 . 17 5.2 政策建议 . 17 参考文献 . 18 附 录 . 19 致 谢 . 28 1 前 言 随着第三次工业革命的推进,人们进入了信息化时代。在信息化时代里数据就是力量,数据就是财富已经不是什么神话,而是深入人心的共识。近几年,随着新社交媒体的普及,以及存储设备的升级换代使得数据的存储与应用发生了翻天覆地的变化,大数据技术应运

12、而生。然而,在这个数据爆炸的时代里,数据质量确实良莠不齐,为了找到评价一个数据集质量的有效方法,许多人都对大数据质量评价体系做了研究。 但是,在大数据层次上,难以拿出相对完善的质量评价体系对政府大数据进行有效的评估,为了弥补这样的缺憾,本文对大数据质量评价体系进行了研究 。 1 本研究的进程共分为三个阶段:第一个阶段,在论文数据平台和学术期刊上查找相关研究成果,并将这些成果中包含的不同部分进行归类,初步了解了大数据质量评价体系研究的现状。总结归纳出了研究通常构建的 13 指标以及研究通常采用的主成分分析或因子分析的方法。第二个阶段,根据前人的成果,再结合自己掌握的知识,构建相对合理的评价指标体

13、系,并根据指标体系制作调查问卷,然后进行问卷调查,收集数据得到第一手的资料。收集数据之后对数据进行分析、研究,并找出成因,思考对策。第三个阶段,将成果写成论文。 本文共分为五部分:第一部分是对大数 据概念的总结与大数据质量评价体系目前研究的简单概括;第二部分首先阐述了目前的研究现状中在指标体系构建中存在的指标过多与角度单一的问题,并相对的提出了解决这些问题的办法,也就是三个级别指标并行,三级指标作为直接变量的解决办法;其次第二部分还阐明了数据量化的必要性以及数据量化的李克特量表法。第三部分介绍了大数据质量评价体系构建中常用的两种降维方法即因子分析法与主成分分析法,并论证了运用主成分分析法的益处

14、。第四部分首先论证了调查得到数据的代表性,然后用主成分分析法提取了 6 个主成分, 再计算各个变量的得分情况。第五部 分根据第四部分的成果发现了政府在大数据安全性和相关性以及大数据来源质量所存在的问题并提出了一些建议。 2 1 相关理论 1.1 大数据的概念 上世纪 50 年代欧洲数学家香农在“通讯的数学理论”中提出的信息定义:“信息是用来消除随机不定性的东西”。在传统理论下数据是信息的基础,而我们现在所提到的数据是一个综合范畴,有传统理论中的数据(统计数据等),更多的是数据化技术存在的结果形态与信息记录的统称,即所谓的大数据。 2 数据种类多,既包括文本、图像、视频等半结构和非结构化数据,也

15、包括现有的结构化数据,像统计数据 。我们可以把大数据的特征总结为 4V,即 Volume(体量浩大)、 Variety(模态繁多)、 Velocity(生成快速)、 Value(价值巨大但密度低)并且具有实时、多元的信息化特点;而统计数据类型单一,主要特征是结构化、体量小、标准化、价值密度高以及周期化数值。目前大数据已成为中国政府统计数据来源的“第二轨”,为了更加全面有效的提升数据质量,统计数据在此略显简单。相比统计数据质量,大数据向纵深拓展了其内涵。 3 目前,作为一种标准化数据的统计数据正在经历着大数据的冲击,统计数据质量即是统计学研究的起点, 也是统计实践的目标,而数据价值最大化是统计数

16、据质量的核心 英国当代数学家托马斯克伦普在数字人类学中提及人 是 数字的本质。揭示数字后面信息与现实世界的关系是统计数据的内涵,而实现数据信息的效率及价值是数据质量的本质。就当今社会信息的价值效率与数据泛滥造成有效信息稀缺导致可用数据质量和价值得不到有效利用,这主要原因是因为来自于大数据推动下数据质量内涵信息的分布复杂的演变。因此如何判断统计数据质量以及对其的有效利用使我们应该考虑的问题,而本文对大数据质量评价体系的构建研究以政府大数据质量为例作简要分析。 4 1.2 现有的 大 数据质量评价体系 虽然大数据是这几年才发展起来的新兴学科,但是对于大数据的研究却是汗牛充栋,其中对于大数据质量评价

17、体系的研究也是初具规模。 然而,在学术界并没有关于大数据质量评价体系统一的标准。尽管如此,在统计学界仍然有大家都公认的一些指标,这些指标在研究中经常被使用。这些指标主要包括: 准确性、时效性、相关性、客观性、可衔接性、完整性、可理解性、透明性、可操作性、3 可取的性、可解释性、效益型、安全性 等 12 个指标。 5 例如: UN下属的经济委员会就曾经提出了包含 11 个指标变量的数据质量评价体系,这 11 个指标是:可获得性、相关性、真实性、准确性、连续性、时效性、可用性、完整性、复杂性、清晰性、安全性。 在国内,蔡莉等人主导的研究中提出了包含 5 个指标的大数据质量评价体系,它们分别是:可获

18、得性、可靠性、可用性、相关性、可表达性。 2 政府大数据质量评价指标体系的构建 所谓大数据质量评价指标体系就是一个可以很好地描述大数据质量的模型,利用这个模型可以比较方便的比较两个数据集的质量。大数据质量评价指标体系研究,研究对象是大数据,关键是质量评价,目标是指标体系构建,只有将体系搭建好,才能有明确的目标,才能更好的完成分析、论证工作。 6 2.1 政府大数据质量评价指标的确立和指标体系的构成 7 在之前的研究当中,人们对数据质量的评价体系的描述基本上是从准确性、时效性、相关性、客观性、可衔接性、完整性、可理解性、透明性、可操作性、可取的性、可解释性、效益型、安全性等方面展开 的。 这样做

19、固然有它的好处,首先这些指标基本上已经覆盖了的质量评价体系所要考虑的全部方面,其次这些指标简洁明了没有歧义,但是有时候指标分类过于细化,反而会分散人们的注意力,使得一些有用的东西不能很好的展现出来。为了解决这个问题,同时也为了取长补短,本研究同样选取以上 13 个指标,只不过将这 13个指标作为二级指标,然后进一步归类得到了 5个一级指标。这样不仅保证了指标对数据质量描述的全面性,也保证指标数量设置的合理性,和反映问题的集中性。得到的一二级指标划分表如下: 表 1 一二级指标的划分表 一级指标 二级指 标 大数据来源质量 准确性 客观性 可取得性 可解释性 透明性 可理解性 安全性 4 大数据

20、规模质量 完整性 大数据排列质量 可衔接性 大数据时效质量 时效性 可操作性 大数据价值质量 相关性 效益性 之前的研究大都是直接将这 13 指标作为变量来研究,选取的角度要么是政府部门,要么是受访者,这样使得研究结论趋于片面,研究的成果应用面窄。为了避免出现这些 不 愿意看到的结果,本研究进一步将二级指标从政府部门,受访者,政策条件等三个因素细化,使得得到的这 39 个三级指标成为直接研究的变量。得到的最终质量评价指标体系表如下: 表 2 质量评价体系表 第一级指标 第二级指标 第三级指标 变量 大数据来源质量 准确性 1由政府处理产生的一般性误差 2由受访者主观意图造成的数据误差 3考核的

21、机制差异对数据造成的误差 客观性 1政府数据的类目指标是否可以真实描述受访者 2受访者是否愿意提供真实数据 3考核的机制对数据客观性的要求 可取得 性 1数据从政府部门获取是否具有的便利性 2数据从受访者获取是否具有便利性 3政府获取数据的流程控制 可解释性 1政府部门对政府掌握数据的补充与说明 2受访者掌握数据来源的可靠性 3政府部门对政府掌握数据的披露与解释意愿 透明性 1政府掌握数据的公开性 2受访者披露相关数据的意愿 3政府政务公开的进展程度 可理解性 1数据类目指标设置是否合理性 2受访者提供数据的内容是否具有明确性 3政府的机制对于数据揭示内容的明确性要求 5 安全性 1政府应对数

22、据泄露的所采取的防范措施 2受访者防止数据泄露所采取的防范措施 3政府数据保存的安全机制 大数据规模质量 完整性 1政府部门的数据类目满足大数据需求 2受访者 提供满足大数据需求的数据类目 3政府对政府大数据类目的指导要求 大数据排列质量 可衔接性 1政府各部门数据结构的衔接程度 2受访者 提供不同结构数据的能力 3政府对处理不同结构数据能力的指导要求 大数据时效质量 时效性 1政府部门处理大数据的速度 2受访者 的数据更新速度 3政府大数据处理的时效机制 可操作性 1政府部门处理大数据的复杂程度 2受访者 的提供的数据结构 3政府数据设计制度 大数据价值质量 相关性 1政府大数据的内容与数据

23、使用者兴趣是否有关联性。 2受访者数据类目的设置是否具有合理性。 3政府大数据设计制度 效益性 1政府部大数据保存、处理成本 2受访者所提供的数据的净价值 3政府的大数据效益管理机制是否完善 2.2 大数据质量评价指标的量化 在大数据质量评价指标体系确定下来以后,就要根据这 39 个指标变量设计调查问卷,附录中列出了本研究的调查问卷,接下来亟待解决的就是数据的量化问题。因为毕竟本研究是定量分析,所以数据的数量化是必要的。在 spss 软件处理的过程中,最终也都要归结为对数值型数据的处理 .8 由调查问卷可以看出,每个问题下面都有五个选项他们分别是:“非常不满意”、“不满意”、“一般”、“满意”

24、、“非常满意”,因此可以利用 spss软件中值标签功能建立一个数据汇总表,使得数字“ 1”对应“非常不满意”,数字“ 2”对应“不满意”,数字“ 3”对 应“一般”,数字“ 4”对应“满意”,数字“ 5”对应“非常满意”。也就是运用了 5 级李克特量表,这样就很好的解6 决了数据的量化问题。 3 研究方法的选取 3.1 因子分析法概述 9 3.1.1 因子分析法的定义 因子分析是一种数据简化技术,是通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假象变量表示出数据的结构。其主要思路是降维之后简化数据结构;目的就是将分散的大数据信息整合成数量较少的因子,通过简化后的因子

25、,对变量进行分类,这样既做到了降维,也把数据的损失降到最小。本文就是首先对用户对待政府公开数据的满意度着手展开的三级指标,并由此得出的结论。 3.1.2 因子分析法的步骤 因子分析的核心问题是因子变量的构造和怎样对因子变量命名和解释;其常用基本步骤如下: 首先是需要确认所要分析的原 变量是否适合做因子分析 。 其次是如何构造因子变量 。 再次是利用因子旋转增加因子变量的可解释性 。 最后计算出各个因子变量的得分。 因子分析的计算过程是: ( 1) 将原始数据标准化,以消除变量间在数量级和量纲上的不同; ( 2) 求出标准化数据的相关矩阵; ( 3) 求出相关矩阵的特征向量、特征值; ( 4) 计算方差贡献率、累积方差贡献率; ( 5) 确定因子; ( 6) 因子旋转; ( 7) 利用原变量指标的线性组合求得各因子得分; ( 8) 综合得分;

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。