1、大数据的国内外研究现状及发展动态分析 大数据的概念产生的背景与意义上世纪60年代到80年代早期,企业在大型机上部署财务、银行等关键应用系统,存储介质包括磁盘、磁带、光盘等。尽管当时人们称其为大数据,但以今日的数据量来看,这些数据无疑是非常有限的。随着PC的出现和应用增多,企业内部出现了很多以公文档为主要形式的数据,包括Word、Excel文档,以及后来出现的图片、图像、影像和音频等。此时企业内部生产数据的已不仅是企业的财务人员,还包括大量的办公人员,这极大地促进了数据量的增长。互联网的兴起则促成了数据量的第三次大规模增长,在互联网的时代,几乎全民都在制造数据。而与此同时,数据的形式也极其丰富,
2、既有社交网络、多媒体等应用所主动产生的数据,也有搜索引擎、网页浏览等被动行为过程中被记录、搜集的数据。时至今日,随着移动互联网、物联网、云计算应用的进一步丰富,数据已呈指数级的增长,企业所处理的数据已经达到PB级,而全球每年所产生的数据量更是到了惊人的ZB级。在数据的这种爆炸式增长的背景下,“大数据”的概念逐渐在科技界、学术界、产业界引起热议。在大数据时代,我们分析的数据因为“大”,摆脱了传统对随机采样的依赖,而是面对全体数据;因为所有信息都是“数”,可以不再纠结具体数据的精确度,而是坦然面对信息的混杂;信息之“大”之“杂”,让我们分析的“据”也由传统的因果关系变为相关关系。大数据热潮的掀起让
3、中国期待“弯道超越”的机会,创造中国IT企业从在红海领域苦苦挣扎转向在蓝海领域奋起直追的战略机遇。传统IT行业对于底层设备、基础技术的要求非常高,企业在起点落后的情况下始终疲于追赶。每当企业在耗费大量人力、物力、财力取得技术突破时,IT革命早已将核心设备或元件推进至下一阶段。这种一步落后、处处受制于人的状态在大数据时代有望得到改变。大数据对于硬件基础设施的要求相对较低,不会受困于基础设备核心元件的相对落后。与在传统数据库操作层面的技术差距相比,大数据分析应用的中外技术差距要小得多。而且,美国等传统IT强国的大数据战略也都处于摸着石头过河的试错阶段。中国市场的规模之大也为这一产业发展提供了大空间
4、、大平台。大数据对于中国企业不仅仅是信息技术的更新,更是企业发展战略的变革。随着对大数据的获取、处理、管理等各个角度研究的开展,企业逐渐认识数据已经逐渐演变成“数据资产”。任何硬件、软件及服务都会随着技术发展和需求变化逐渐被淘汰,只有数据才具有长期可用性,值得积累。数据是企业的核心资产,可以是也应该是独立于软硬件系统及应用需求而存在的。大数据是信息技术演化的最新产物,确立了数据这一信息技术元素的独立地位。正因为数据不再是软硬件及应用的附属产物,才有了今天爆炸式的数据增长,从而奠定了大数据的基础。为了充分利用数据资产,大数据产业也呼之欲出。大数据时代来临,使商业智能、信息安全和云计算具有更大潜力
5、。大数据产业链按产品形态分为硬件、基础软件和应用软件三大领域,商业智能、信息安全和云计算主横跨三大领域,将构成产业链中快速发展的三驾马车。就国内而言,商业智能市场已步入成长期,预计未来3年复合年均增长率( CAGR) 为35%,“十二五”期间潜在产值将超300 亿元; 信息安全预计未来3 年CAGR有望保持35% 40%的快速增长,“十二五”期间潜在产值将超4000 亿元; 云计算刚进入成长期,预计未来5 年CAGR 将超50%,2015 年产业规模预计将达1 万亿元。大数据处理的基础设施数据仓库、以物联网为代表的数据收集环节、实时性强的在线数据分析工具,以及数据可视化的产品呈现,数据挖掘的应
6、用在营销、销售、人力资源、电子商务等各个商业领域广泛开展,大数据为个性化营销和精准化推荐提供了充足的养分和可持续发展的沃土。同时大数据研究会给企业管理变革带来巨大冲击。对现代企业的管理运作理念、组织业务流程、市场营销决策以及消费者行为模式等产生巨大影响,使得企业商务管理决策越来越依赖于数据分析而非经验甚至直觉。大数据将催生由信息驱动的的商业模式,在企业的价值链中发挥中间作用,通过商业交易创建极具价值的“排出数据”;数据驱动的决策制定,利用可控实验,企业能够验证假设、分析结果以指导投资决策及运作改变;利用大数据进一步提高算法和机器分析的作用,避免成本高昂的人工干预,节约成本,提高效益。国内外研究
7、进展“大数据”这个概念早在上个世纪的1980年,著名未来学家阿尔文托夫勒便在第三次浪潮一书中,就将“大数据”热情地赞颂为“第三次浪潮的华彩乐章”。2008年9月科学(Science)杂志发表了一篇文章“BigData: Science in the Petabyte Era”。“大数据”这个词开始被广泛传播。目前国内外的专家学者对大数据只是在数据规模上达成共识:“超大规模”表示的是GB级别的数据,“海量”表示的是TB级的数据,而“大数据”则是PB级别及其以上的数据。但对其的准确定义给出的结论不一。美国国家科学基金会( NSF) 则将大数据定义为“由科学仪器、传感设备、互联网交易、电子邮件、音视
8、频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”。Wiki对大数据的定义为:所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。麦肯锡全球数据分析研究所在2011 年5 月发表的一篇论文中所说:“大数据是指大小超出了典型数据库工具收集、存储、管理和分析能力的数据集。”但它同时指出“大数据”并非总是说有数百个TB 才算得上。根据实际使用情况,有时候数百个GB 的数据也可称为大数据,这主要要看它的第三个维度,也就是速度或者时间维度。权威IT 研究与顾问咨询公司Gartner 将大数据定义为“在
9、一个或多个维度上超出传统信息技术的处理能力的极端信息管理和处理问题”。IBM公司把大数据概括为规模Volume快速Velocity和多样Variety,即3V,而4V则是3V的基础上多一个Value价值。具体来讲,Volume指数据量极大并仍在持续增大;Velocity指所需的处理速度快,响应时间短;Variety指数据类型繁多,包括结构化数据、半结构化数据甚至是非结构化数据(以此区分大数据与海量数据两个概念);Value指价值密度低,以视频为例,不间断的监控录像中,有用的数据长度可能仅有一两秒。由以上概念的差异可以看出目前主要从数据来源和数据的处理工具与处理难度两个方面对大数据进行定义。但是
10、这种定义方式会和另一个词发生混淆海量数据。有文献指出大数据=海量数据+复杂类型的数据,这一公式是否成立还待进一步讨论。如今“海量数据”研究方向主要考虑各种非结构化数据的有效管理、多数据源的集成问题。由此看来能区别两次还需要借助IBM关于大数据4V特征,尤其是其中的Velocity。强调数据是快速动态变化的,形成流式数据则是大数据区别于其他概念的最重要的特征。国外除在大数据的概念上的研究外,重点放在技术研究。美国政府六个部门启动的大数据研究计划中,除了国家科学基金会的研究内容提到要“形成一个包括数学、统计基础和计算机算法的独特学科”外,绝大多数研究项目都是应对大数据带来的技术挑战,重视的是数据工
11、程而不是数据科学,主要考虑大数据分析算法和系统的效率。在国内,“大数据”尚未直接以专有名词被我国政府提出并给予政策支持。因此国内学者关于大数据概念上的研究并不充分,大多是引用以上定义进行阐释。同时在国内对“海量数据”这一说法认同度较高,更习惯将“大数据”称为“海量数据,并没有将两个词进行明确的区分。国内在大数据研究领域的重点在大数据与云计算、数据挖掘,并行计算和分布式处理,应用式主要集中在地理信息系统。发展动态(1) 资源的管理与利用。数据作为一种重要的资源,对它价值的挖掘利用具有非常重要的意义,因此一直是该领域的研究重点。研究主要涉及到数字处理、数据分析以及数据挖掘,尤其是从海量、复杂、实时
12、的大数据中挖掘知识,可见,对海量数据价值的挖掘、发现和创造价值一直是当前的研究热点。同时为了更好地建设数据资源,对数据的组织和存储显得尤为重点,于是相应地也成为研究热点,如元数据、数据仓库和数据存储等。(2) 信息服务。数据组织和建设的主要目的便是开展服务。相关研究主要涉及到地理信息系统、互联网、物联网、遥感、数字城市、商业智能等方面。而物联网一直是重点关注的新产业,对于数字城市及智慧城市的谋划建设更强调数据的价值。此外,统计还发现,中国移动、中国电信以及金融领域更注重从数据分析挖掘中获得智慧价值的利用。(3)行业调整。Hadoop迈向商业化,开源软件带来更多相关市场机会,将促使一批新型开放平
13、台的诞生。同时大数据将由网络数据处理走向企业级应用,企业逐渐了解到大数据并不仅仅指处理网络数据,行业对大数据处理的需求也会增加,包括数据流检测和分析。大数据将创造出新的细分市场(4)关键技术。数据的管理和利用离不开技术的支撑,服务质量的提高更离不开技术的保障。近几年的研究主要涉及到云计算、Hadoop、MapReduce、并行、分布式、多线程、网格、可视化等技术。尤其是云计算、MapReduce 以及Hadoop 带来的分布式、并行式算法与“海量数据”有着密切的关系,而事实上这三者针对的具体目标本来就是大规模的数据。目前存在的主要问题分析(1) 研究方法问题大数据研究开创了科研的第四范式,与传
14、统的逻辑推理研究不同,大数据研究是对数量巨大的数据做统计性的搜索、比较、聚类和分类等分析归纳,因此继承了统计科学的一些特点。统计学关注数据的相关性或称关联性,所谓“相关性”是指两个或两个以上变量的取值之间存在某种规律性,而不再关注因果关系。因果关系的研究曾经引发了科学体系的建立,近代科学体系获得的成就已经证明,科学是研究因果关系最重要的手段。对于相关性研究是可以替代因果分析的科学新发展还只是因果分析的补充,这是一个大数据学术界讨论比较激烈的问题。(2)领域融合问题当前大数据研究的局面是各个学科的科学家都以自己为主处理本领域的海量数据,信息领域的科学家只能起到助手的作用。也就是说,各领域的科学问题还掌握在各学科的科学家手里,计算机科学家所提炼出的具有共性的大数据科学问题并不多。通过对有关文献统计,目前大数据方面已发表论文多有计算机科学方面的研究机构专家学者撰写。大多立足于信息科学,侧重于大数据的获取、存储、处理、挖掘和信息安全等方面,鲜有从管理学的角度探讨大数据对于现代企业生产管理和商务运营决策等方面带来的变革与冲击的研究缺乏学科之间的交叉与融合,缺乏既拥有清理和组织大型数据的能力又懂得“商业语言”的数据科学家。