1、大数据背景下统计数据质量影响因素分析 摘要:随着云计算技术概念的提出和逐步发展,社会经济正在进入大数据应用时代。大数据背景下,统计工作必须紧紧着眼于用户需求,提升统计数据的质量,更好地发挥统计数据的价值。 关键词:大数据;数据统计;影响因素 大数据的技术应用正在向各个行业渗透,未来的数据将会像石油一样成为重要的资源,推动社会的进步和发展。统计数据只有可靠,准确,及时才能为决策者提供合理的依据,因此保证统计数据的质量,在今天大数据时代显得尤为重要。大数据越来越呈现出海量,非结构化,实时,电子化处理和多元等特点,在数据的处理上带来了难度,数据质量上一些细微的问题将会通过大数据海量的样本被放大,导致
2、严重的问题,这是当下大数据最需要解决的问题。 一、统计数据的质量 (一)统计数据核心的转变 在大数据的背景下,数据统计的核心正发 生着变化。传统的数据统计对于数据的核心要求是 “ 准确性 ” ,统计数据要能真实反映发生的问题。而今天的数据统计最终是要向消费者服务的,数据统计的核心要求是 “ 客户需求 ” 。 (二)统计数据的质量要求 针对目前的大数据发展情况,马建光认为统计工作面临的最大挑战是海量的,多样的大数据获取和处理问题,它们决定着大数据的质量。如何解决这种问题,有关专家学者提出:要从技术,流程和管理三个方面入手进行相关问题探讨,而且对统计数据的质量评估也要进行多维度的验证,主要从逻辑规
3、则检验、核算数据重估、计量模型分析、统 计分布验证、调查偏差评估、多维评估延伸六个角度。 大数据背景下,在统计数据的质量研究上国内外学者形成了共识:非技术因素中人为因素和环境因素是两大影响因素,非技术性因素在统计数据的质量上应该得到更多关注。大数据背景下,统计数据所呈现出来的特点使得统计数据质量问题极为复杂,这里面既有技术因素也存在非技术因素的作用。为了保证统计数据的质量,需要及时发现各种影响因素,并通过科学的方法将影响降到最低。 二、影响因素分析 美国麻省理工学院的 Richard Y.Wang 教授提出了全面数据质量管理理论,他认为影响统计数据质量的主要影响因素是流程,技术和管理三个方面。
4、图 1 展示了这种理论概念模型。 (一)流程维度的影响 从该维度对数据进行分析,主要从数据收集,数据存储,数据使用三个阶段来进行,这是数据的整个生命周期在不同阶段的处理功能。 1. 数据收集阶段 在数据收集的方式和统计标准上,大数据时代因为智能设备,传感器以及社交协作技术的应用和普及,使得数据的来源发生了很大的变化。 如今网页,搜索引擎,社交媒体论坛,主动和被动系统传感器成为大数据的产生来源,海量数 据的产生,让统计数据在广度上无限接近 “ 总体 ” ,这样的大数据收集明显地优势就是会增加统计的准确性,但是数据接触范围的扩大会带来许多以前未曾出现的问题。另一方面数据的时效性比以前大大缩短,而有
5、效的数据收集,才能保证统计数据的质量,这也是一种新的挑战。 2. 数据存储阶段 传统的数据存储结构已经无法满足大数据存储的要求,大容量及高扩展性,高可用性,高性能和访问接口的多样性都要求改变单一的数据存储结构。 现在的数据存在着大量视频,图片等非机构化数据,使用以往的存储要经过复杂的转换过程, 将其转换为结构化的数据,但是这个过程不可避免地会出现转化方式不合适,直接导致数据的完整性和准确性。实现大数据效益的最大化就必须将这些非结构化的数据与结构化的数据有机结合,建设新型的数据库。 3. 数据使用阶段 大数据时代数据成为一种共享的资源,不再由某一个人或者某一个部门单独使用。数据的提取和更新愈加频
6、繁,这中间的任何失误都将造成数据质量的下降。社会信息化的发展使得数据的产生和传播加快,许多事情的产生都是瞬息万变的,因此对数据进行及时处理分析,才能保证数据的价值不过期,作为决策者才能做出 合适的决策。 (二)技术维度的影响 大数据技术包含数据库技术,数据质量检测识别和数据分析技术这三个方面,它是准确预测未来的保障,体现了数据分析的真正价值。 1. 数据库技术 企业数据在大数据时代最明显的特征就是数据量的增加,这种增加的速度是以往难以想象的,呈现出了指数级的增长。增长的内容既有信息量的增长,也有数据结构的增长,因此数据的统计越来越复杂。 传统的数据检测技术在检测结构化的数据时很方便,但是非结构
7、化数据的出现使得传统的检测技术出现了难以应对的情况。 数据中错误,缺失,无效或延迟的情况时有发生,这极大地增加了检测的时间成本。企业需要配备更高端的检测设备,引进或者研发新技术来处理大数据,保证数据质量。 2. 数据质量检测和识别技术 数据质量的准确性,适用性和及时性检测依靠人工判断,会越来越难,必须引进有效的数据检测技术,及时发现数据存在的不足和缺陷,同时在实践中完善数据质量检测技术,满足大数据时代数据检测的要求。 3. 大数据分析技术 数据收集之后,经过分析才能得出数据的价值。可视化分析成为目前大数据分析技术中的主流 ,数据挖掘算法可以有效处理不同类型和格式的数据,对传统的数据分析进行完善
8、和促进这些都是数据分析能力的提升。 (三)管理维度的影响 数据管理作为数据质量保证的重要一环,人在其中起到了 ?Q 定性的作用。在这个维度中企业管理者的认识,专业数据库管理人员的配备,政府统计制度和统计数据标准是影响数据质量的四个重要因素。 1. 管理者的认识 重视首先需要认识其重要性。企业的管理者要充分认识到大数据对于企业发展的重要性,支持和重视大数据的建设,让大数据的应用有效落实到企业工作中,真正 发挥大数据在企业决策中的作用,为企业提供正确地的发展方向。 2. 数据库人员的配备 大数据的管理难度就在于它的复杂性。作为企业发展的重要部门,数据管理不能马马虎虎,应付了事。配备专门的数据库人才
9、进行数据库的管理和维护,能够确保大数据的质量。而这类人才的选拔既需要能够解决技术问题,也需要熟知企业的业务。 3. 统计体制和标准的建立 大数据产业的发展推动着社会经济增长,政府部门对此应该有足够的重视,积极制定相关统计制度,建立统计体制和标准,进一步保障大数据的发展,适应国际发展 形势。 三、提高统计数据质量的对策 大数据时代的数据不再局限于单独的部门,不同部门数据的共享将会打破以往统计数据之间的孤岛问题,将统计数据变成一个生态系统。因此想要提高统计数据的质量就必须从整个数据的流程体系上进行改进。 (一)流程方面的解决对策 政府部门应该进一步增强 ? 笫 ?据的管理意识,建立专门的数据质量监
10、控和评估机构,建立健全和完善统计产品质量管理体系,形成统计数据质量保障的长效机制。 数据收集的时效性和数据收集过程中的干扰是影响数据质量的关键因素,新型的统计数 据集成平台必须致力于收集过程的规范化和透明化,提升时效性和减少统计的干扰因素。建立基于数据仓库的统计数据集成平台,实现多类型数据的存储,提升数据集成以及后期数据分析处理效率。 政府部门应在统计工作中处于主导地位,加强统计工作的协调,尊重统计客观规律,拓新统计技术和方法,放开数据共享关隘,最终建立以满足用户需求为导向的数据分析结果。 (二)技术方面的解决对策 技术方面的解决对策需要关注的一个是技术本身,另一个是使用技术的人。在技术引进上
11、,云存储技术专注于向用户提供以互联网为基础的 在线存储服务,是一种高效率和低成本的数据存储技术。最大方便地满足了用户对数据存储的需求。为了保证统计数据的质量,必须将数据质量检测技术贯穿整个数据周期。大数据技术应进行全面运用,统计数据的价值挖掘,预测分析和可视化分析将为数据预测的时效性和准确性提供重要支持。 (三)管理方面的解决对策 作为政府统计部门和企业管理者应该重视大数据的应用价值,树立科学合理的统计观念,加强统计法制法规的建设,完善数据标准和统计制度体系,来保证统计数据质量的提高。 参考文献: 魏瑶 .统计调查 中数据质量控制对策研究 J.中国高新技术企业, 2016( 04) . 罗放华 .大数据时代的统计主体利益均等化路径研究 J.统计与决策,2015( 02) . 郭彦君,魏婷 .统计数据质量问题研究 J.现代经济信息, 2015( 02) . 宗威,吴锋 .大数据时代下数据质量的挑战 J.西安交通大学学报(社会科学版), 2013( 05) . 马建光,姜巍 .大数据的概念、特征及其应用 J.国防科技, 2013( 02) . 程开明 .基于利益相关者视角的统计数据质量管理体系研究 J.商业经济与管理, 2013( 03) . 邢建英 .关于提高统计数据质量的几点思考 J.统计教育, 2005( 09) . (作者单位:河北省东光县商务局)