1、1国际大数据研究论文的计量分析摘要本文利用 Web of Science 数据库,对国际大数据研究领域的文献进行收集,分别按照论文的年代、著者、国别与机构进行统计分析,并利用 SPSS 软件对文献的高频关键词进行聚类分析和多维尺度分析,利用 Ucinet 软件予以可视化呈现,总结了国际大数据研究的现状与热点,以期对国内大数据的研究提供有益的参考和借鉴。 关键词大数据;共词分析法;聚类分析;多维尺度分析;可视化 DOI:10.3969/j.issn.1008-0821.2013.09.026 中图分类号TP391;G250.252文献标识码A文章编号1008-0821(2013)09-0129-
2、06 2011 年 5 月,麦肯锡全球研究院(McKinsey Global Institute)发布了研究报告大数据:创新、竞争和生产力的下一个前沿领域 (Big data,The next frontier for innovation,competition,and productivity)1。2012 年 1 月在瑞士达沃斯举行的世界经济论坛上,“大数据”是讨论的主题之一,论坛上发布的题为大数据,大影响(Big Data,Big Impact)的报告中提出, “数据已经成为一种新的经济资产类别,就像货币或黄金一样。2”2012 年 3 月 29 日,美国政府在白宫网站上发布了大数据研
3、究和发展倡议 (Big Data Research and Development Initiative) ,该倡议涉及联邦政府的 6 个部门,这些部门2承诺将投资超过两亿美元,来大力推动和改善大数据的提取、存储、分析、共享和可视化。 无论是美国政府的倡议,麦肯锡的研究报告,还是世界经济论坛的议题,都预示着人们,大数据时代已经到来。大数据正在撬动全世界的神经,大到一个国家、企业,小到每一个独立存在的个人,都将成为大数据时代的贡献者和受益者。那么,大数据究竟是什么?维基百科将大数据解释为“是指无法在一定时间内用通常的软件工具进行捕获、管理的数据集合”3。关于数据量究竟要达到多少才可以被称之为大数
4、据,目前尚无统一说法。一般认为,大数据的数量级应该是“太字节” ,即240。大数据之“大” ,并不仅仅在于其“容量之大” ,更多的意义在于,人们可以“分析和使用”的数据在大量增加,通过这些数据的交换、整合和分析,人类可以发现新的知识,创造新的价值,带来“大知识” 、“大科技” 、 “大利润”和“大发展”4。 目前国内学者中,杨绎以国内文献为研究基础,以关键词分析为主要方法,对目前国内期刊和报纸上有关“大数据”的文献进行了研究5。韩芳芳等以 CNKI 为数据源,从文献、作者、关键词 3 个角度分析我国大数据领域的相关文献。笔者认为很有必要对国际大数据领域文的献进行分析,从而把握国际大数据领域的研
5、究现状与热点,以供国内学者参考借鉴。 1 数据来源与研究方法 Web of Science(简称 WOS)是美国汤姆森集团开发的产品,是大型综合性、多学科期刊引文索引数据库。WOS 收录了世界上经过同行专家评3审的有影响力的文献,选用 WOS 作为数据源进行研究可以保证研究资料的权威性。本文选取 WOS 数据库下 3 个子库 Science Citation Index Expanded(SCI-EXPANDED,科学引文索引扩展版) 、Social Sciences Citation Index(SSCI ,社会科学引文索引) 、Arts & Humanities Citation Inde
6、x(A&HCI,人文艺术科学引文索引) ,检索年限为“所有年份” ,数据库更新日期为 2013 年 4 月 5 日,以“big data”为检索词进行“主题”检索,共检得 171 篇大数据领域的相关文献(检索日期:2013 年 4 月 10 日) 。 本文借助 SPSS 190 软件,采用共词分析法对国际大数据的研究热点进行分析。共词分析法(Co-term Analysis)最早是在 20 世纪 70 年代中后期由法国文献计量学家提出的,其思想来源于文献计量学中的引文耦合与共被引的概念。共词分析法的基本原理是,统计一组词(关键词或者主题词)两两在同一篇文献中出现的次数,以此作为基础进行聚类分析
7、,从而得出这些词语之前的亲疏远近的关系,进而分析出这些词语所代表的学科或者主题的结构变化情况7。共词分析法研究的是某一学科领域中当前的学术文献所集中关注的主题,很适合于分析某一学科的研究热点和知识结构8。 2013 年 9 月 1 第 33 卷第 9 期 1 现?代?情?报 1Journal of Modern Information1Sep,20131Vol.33No92013 年 9 月 1 第 33 卷第 9期 1 国际大数据研究论文的计量分析 1Sep,20131Vol.33No92 文献计量分析 2.1 年代分析 4通过对文献发表时间的分析,可以勾勒出国际大数据研究领域的发展轨迹,揭
8、示其发展的总体趋势。将在数据库中检索得到的论文按照年度进行归类,如表 1 所示。 从表 1 可以看出,国际大数据研究可以分为两个时期:第一时期从1974-2007 年,是起步探索时期。这一时期的研究成果比较零散,数量较少,除 2006 年有 3 篇外,其余年份均在 2 篇或以下。第二时期是从 2008年至今,是快速增长期。2008 年的文献量突然增长到 11 篇,究其原因,是因为 2008 年 9 月Nature杂志开设了“大数据”专刊,发表了 10篇有关大数据研究的文章,从大数据的技术、发展方向以及对人类的挑战等多个角度介绍了大数据的相关问题。这 10 篇文献也被后来的文章多次引用,揭开了国际上研究大数据热潮的序幕。2012 年文献量达到历史性的 84 篇,是第一时期文献量最多的 2006 年的近 30 倍。这与 2011 年麦肯锡研究中心发布的大数据研究报告以及 2012 年初奥巴马发布的大数据倡议息息相关。由于数据库的收录具有滞后性以及检索时间是 4 月份,2013 年的数据不全,却已经有 29 篇文献,可以预测未来几年国际大数据研究还会继续保持快速增长的趋势。