1、第一章 大数据概论当移动通信和互联网给我们带来的生活方式、思维方式的巨大改变还没有消退的时候,大数据时代以排山倒海之势到来,什么是大数据?大数据能为人们带来哪里益处?大数据如何改变人们的生活、工作和学习?大数据下的政府、企业和过去有什么不同?这一系列的问题困扰着很多人,甚至连一些专家学者也对此迷惘。在人人都谈大数据的时代并不是每个人都真正理解大数据的精髓,因此本章给读者简单的介绍一下大数据的定义、原理、方法、应用及存在的问题。以后各章将介绍与大数据有关的技术、工具、商业模型及应用案例等,引导读者逐步深入,了解和掌握大数据的基本知识和技能,为从事大数据及其相关产业打下基础。1.1 大数据的定义大
2、数据(Big Data)是指数据量大到用常规工具和方法无法进行处理的蕴含着大量价值的数据集合。因此大数据的核心是价值,数据量大只是大数据的表象,这也是为什么大数据引起业界广泛关注的重要原因。由此可见,对于大数据的研究和应用主要集中于两点:一、从技术层面研究大数据的模型及处理算法、开发相应的处理工具等;二、从商业模式层面寻找大数据的商业模型、盈利模式、产业发展等。维克托迈尔-舍恩伯格和肯尼斯 库克耶编写的大数据时代中指出大数据指不用随机分析法(抽样调查)这样的捷径,而采用对所有数据进行分析处理。大数据的 4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value
3、(价值)。从该定义看来大数据仍然体现在数据量大和价值两方面。知名研究机构 Gartner 对大数据给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。Gartner 的定义更多的倾向于大数据的决策优化作用。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有价值的数据进行专业化处理。换言之,如果把大数据比作一种产业,初级或者粗糙的大数据产业主要是提高对数据的“加工能力”,通过“加工”实现数据的“增值”;而更高层次的大数据产业将数据信息产生的价值应用到具体的行业,发挥行业价值,从而实现数据信息价值的倍增。这样才能
4、真正体现大数据的价值所在。1.2 大数据与海量信息的关系在 10 年前,我们经常听到一个名词“海量信息”,用来描述大量数据,这是在信息技术飞速发展的大背景下,数据量增加带来的现实问题,为此国家在“十一五”期间还加大的对海量信息及其相关技术的研究。下面是国家科技部“973”计划对信息领域的项目资助指南。“十一五”期间,信息领域基础研究的发展目标是根据国际信息技术的发展趋势,结合我国的国情和发展状况,着重从信息获取、处理、传输、存储、再现、安全、利用,信息系统的基础元器件、信息处理环境、科学计算、人工智能、控制理论等方面开展系统深入的研究,为我国信息产业的跨越式发展奠定坚实的理论和技术基础。“十一
5、五”期间,重点研究方向包括:(1)微纳集成电路、光电子器件和集成微系统的基础研究;(2)信息处理环境及科学计算的基础研究;(3)泛在、可控的下一代信息网络的基础研究;(4)信息获取的基础研究;(5)高可信、高效率软件的基础研究;(6)智能信息处理、和谐人机交互的基础研究;(7)海量信息处理、存储及应用的基础研究;(8)量子通信的基础研究;(9)信息安全的基础研究从科技部 973 重大基础研究计划资助的领域中可以看出,国家加大了对海量信息的研究力度,这里就产生了一个疑问,大数据大还是海量数据大?二者有何联系?又有什么区别?海量信息仅仅是从数据量上进行界定,海量数据指数据量巨大,用普通的方法和工具
6、处理起来相对困难,其计算时间和运算量较大,需要开发新的存储、处理和挖掘等技术才可以进行快速处理。大数据的数据量明显远大于海量数据,当然二者没有严格的区分门限,通常意义上讲,大数据的数据量要大于海量数据。海量数据的很多分析处理技术可以用于大数据的分析与处理,同样大数据的相关理论和方法同样可以用于海量数据。大数据不仅仅从量上进行了分析,而且从本质上进行了定义,突出了其核心价值。因此可以说大数据是海量数据的升级,大数据更突出了数据的本质。既然谈到数据量的问题,这里有必要介绍关于数据量的一些常见数量单位。数据的最小的基本单位是 bit,按顺序给出所有单位:bit、Byte 、KB、MB、GB、TB 、
7、PB、EB、ZB 、YB、BB 、NB、DB 。它们按照进率 1024(2 10)来计算:1 Byte= 8bit 1 KB = 1,024 Bytes1 MB = 1,024 KB = 1,048,576 Bytes1 GB = 1,024 MB = 1,048,576 KB1 TB = 1,024 GB = 1,048,576 MB1 PB = 1,024 TB = 1,048,576 GB1 EB = 1,024 PB = 1,048,576 TB1 ZB = 1,024 EB = 1,048,576 PB1 YB = 1,024 ZB = 1,048,576 EB1 BB = 1,02
8、4 YB = 1,048,576 ZB1 NB = 1,024 BB = 1,048,576 YB1 DB = 1,024 NB = 1,048,576 BB当前用的最多的关于大数据描述的数量级是 TB 和 PB,一般行业或者政府机构的数据基本在 PB 级上,比如目前某省的农业数据大概有几百 TB 到几十个 PB 之间,全国的每天产生的交通数据大概是几个到几百个 TB 量级上。因此,如此大量的数据用传统的数据库存储、查询和处理方式无法实现数据的实时处理,导致时效性大打折扣,甚至不可用,例如在追击逃犯的时候,需要快速查出犯罪分子的行动路线、推测他可能去的地方等,如果数据处理速度较慢,很容易错过机
9、会。同样在商业领域,每天的电子商务交易记录、顾客浏览记录等都是大量的数据,因此这些数据的处理都需要快速。1.3 大数据的来源与特点随着电子信息技术和互联网的飞速发展,各种电子设备和数据终端迅速走入寻常百姓家庭,以移动通信发展为代表的手机等客户端产生大量的数据;以 PC 为代表的微机时代产生了大量的计算机数据;以数码相机为代表的电子设备产生大量的视频、图片数据;以互联网为代表的网络应用产生大量的 web 数据。因此大数据的产生是源于信息技术的发展和普及。所以遍布全球的物联网、云计算、移动互联网、车联网、手机、平板电脑、PC 以及各种各样的传感器,无一不是数据来源或者承载的方式。大数据的存在形式多
10、种多样,这也决定了大数据的处理非常困难,需要运用数学、统计学、物理学等知识进行全方位的研究。比如大数据可以是包括网络日志,RFID,传感器网络,社会网络,社会数据,互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;大规模的电子商务等等。大数据分析相比于传统的数据库应用,具有数据量大、查询分析复杂等特点。大数据的 4 个“V” 是指大数据有四个层面特点:第一,数据体量巨大。从 TB 级别,跃升到 PB级别;第二,数据类型繁多。如网络日志、视频、图片、音频、文档、地理位置信息等等。第
11、三,处理速度快,极短的时间可从各种类型的数据中快速获得具有较高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。因此业界将其归纳为 4 个“V”Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度高)。从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点使该技术引起众多企业的关注。大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言
12、,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。1.4 大数据的用途大数据可分成大数据技术、大数据工程、大数据科学和大数据应用几个部分。每部分侧重点不同,目前人们关注最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。大数据的应用范围非常广,可以说,需要信息的地方就需要大数据。为了便于给读者直观的了解,下面简单的介绍几个大数据应用场景。第一,利用大数据探索实现信息库的充实。客户服务、保险、汽车、医疗、教育、交通和技术标准等行业需要储备规模
13、巨大的知识库,而庞大繁杂手册和知识系统会造成重复查询,导致系统延迟和成本上升。例如,IBM Info Sphere Data Explore 使某全球航空制造商中的技师、支持人员和工程师能够即时通过单一访问点查看位于不同应用程序中的信息。部署第一年,该公司全天候支持的呼叫时间从过去的 50 分钟缩短为 15 分钟,每年节约3600 万美元。第二,利用运营分析实现运营优化。制造、能源、公共事业、电信、旅行和运输等行业需要时刻关注突发事件、通过大数据分析和视频监控提升运营效率并预测潜在风险。巴基斯坦移动运营商 Ufone 部署了 IBM 大数据解决方案,通过实时识别用户行为,开展应对特定目标的营销
14、活动,并使用预测分析来设计更好的营销活动和电话推广计划,有效降低了客户流失率。第三,利用数据仓库扩充实现 IT 效率和规模效益提升。企业需要增强现有数据仓库基础架构,实现大容量数据传输、低时延、和实时查询需求,确保有效利用预测分析和商业智能实现企业效益和管理水平的提升。某汽车制造商利用 IBM Info Sphere Big Insights 增强原有数据仓库,实现快速部署并且更易于管理。第四,利用安全性和智能扩展实现犯罪防范,实现社会和谐稳定。政府、保险、银行、消防、教育等行业亟待利用大数据技术补充和加强传统的安全解决方案。重点人群的监控、重点领域的布防、重要事件的预防和应急灯都需要大数据来
15、实现准确的预测、预防和定位等。秘密情报和监视传感器系统供应商 Terra Echos 通过部署 IBM Info Sphere Streams,能够实时分析流式传输的声学数据并对其进行分类,并将实时捕获和分析 275MB 声学数据所需的时间从数小时减少到十四分之一秒,同时大幅提升监控精确度。第五,利用大数据实现广告的精准推送,由于用户对垃圾邮件和烦人的广告比较讨厌反感,各国都在加大整治垃圾邮件和非法广告的力度,而网络广告商在收取广告费用的时候通常是按用户的点击数或者链接等,而不考虑广告的效果。商家花出的广告费却没有收到相应的效果,普通用户收到不需要的广告会反感,而需要广告的人未必收到广告信息。
16、因此如果利用大数据技术,分析客户的喜好和行为习惯,将广告精准推送给需要的人,既不会产生垃圾信息,又能使客户的费用得到合理的使用。由此可见,大数据可以为广告行业提供精准的服务,提升数据价值。其他应用比如洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。google 流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。统计学家内特西尔弗(Nate Silver)利用大数据预测 2012 美国选举结果。麻省理工学院利用手机定位数据和交通数据建立城市规划。梅西百货的实时定价机制。根据需求和库存的情况,该公司基于 SAS 的系统对多达 7300 万种货品进行实时调价。T
17、ipp24 AG 针对欧洲博彩业构建的下注和预测平台。该公司用 KXEN 软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了 90%的预测模型构建时间。SAP 公司正在试图收购 KXEN。“SAP 想通过这次收购来扭转其长久以来在预测分析方面的劣势。”Laney 分析到。PredPol Inc.公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到 500 平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪和暴力犯罪分布下降了 33%和21%。经典大数据案例-沃尔玛经典营销:啤酒与
18、尿布“啤酒与尿布”的故事产生于 20 世纪 90 年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店
19、,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。当然“啤酒与尿布”的故事必须具有技术方面的支持。1993 年美国学者 Agrawal 提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法Aprior 算法。沃尔玛从上个世纪 90 年代尝试将 Apr
20、ior 算法引入到 POS 机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。1.5 数据价值众所周知,企业数据本身就蕴藏着价值,但是将有用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要,但是其他数据也拥有转化为价值的力量。一段记录人们如何在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、如何通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户如何付款以及供应商喜欢的收款方式所有这些场景都提供了很多指向,将它们抽丝剥茧,透过特殊的棱镜观察,将其与其他数据集对照,或者以与众不同的方式分析解剖,就能让
21、您的行事方式发生天翻地覆的转变。但是屡见不鲜的是,很多公司仍然只是将信息简单堆在一起,仅将其当作为满足公司治理规则而必须要保存的信息加以处理,而不是将它们作为战略转变的工具。毕竟,数据和人员是业务部门仅有的两笔无法被竞争对手复制的财富。在善用的人手中,好的数据是所有管理决策的基础,带来的是对客户的深入了解和竞争优势。数据是业务部门的生命线,必须让数据在决策和行动时无缝且安全地流到人们手中。所以,数据应该随时为决策提供依据。看看在政府公开道路和公共交通的使用信息这样看起来甚至有点晦涩的数据时会发生什么:这些数据来源为一些私营公司提供了巨大的价值,这些公司能够善用这些数据,创造满足潜在需求的新产品
22、和服务。企业需要向创造和取得数据方面的投入索取回报。有效管理来自新旧来源的数据以及获取能够破解庞大数据集含义的工具只是等式的一部分,但是这种挑战不容低估。产生的数据在数量上持续膨胀;音频、视频和图像等富媒体需要新的方法来发现;电子邮件、IM、 tweet 和社交网络等合作和交流系统以非结构化文本的形式保存数据,必须用一种智能的方式来解读。但是,应该将这种复杂性看成是一种机会而不是问题。处理方法正确时,产生的数据越多,结果就会越成熟可靠。传感器、GPS 系统和社交数据的新世界将带来转变运营的惊人新视角和机会。请不要错过。有些人会说,数据中蕴含的价值只能由专业人员来解读。但是泽字节经济并不只是数据
23、科学家和高级开发员的天下。数据的价值在于将正确的信息在正确的时间交付到正确的人手中。未来将属于那些能够驾驭所拥有数据的公司,这些数据与公司自身的业务和客户相关,通过对数据的利用,发现新的洞见,帮助他们找出竞争优势。1.6 大数据主要分析和处理工具如此大量的数据,靠人工分析显然是不可能的,统计学家和计算高手也无法完成如此巨大的任务,“工欲善其事,必先利其器”,因此对于大数据的分析和处理,必须有非常好的工具才行,而且不能指望一种工具可以解决所有问题,当前用于分析大数据的工具主要有开源与商用两个生态圈。开源大数据生态圈:1、Hadoop HDFS、Hadoop MapReduce、HBase、Hiv
24、e 渐次诞生,早期 Hadoop 生态圈逐步形成。2、Hypertable 是另类。它存在于 Hadoop 生态圈之外,但也曾经有一些用户。3、NoSQL,membase、MongoDb商用大数据生态圈:1、一体机数据库 /数据仓库: IBM PureData(Netezza), OracleExadata, SAP Hana 等等。2、数据仓库: TeradataAsterData, EMC GreenPlum, HPVertica 等等。3、数据集市: QlikView、Tableau、以及国内的 Yonghong Data Mart。 主要的大数据分析工具有:在大数据处理领域,最耀眼的明
25、星是 hadoop,Hadoop 已被公认为是新一代的大数据处理平台,EMC、IBM、Informatica、Microsoft 以及 Oracle 都纷纷投入了 Hadoop 的怀抱。对于大数据来说,最重要的还是对于数据的分析,从里面寻找有价值的数据帮助企业作出更好的商业决策。下面,我们就来看以下八大关于大数据分析的利器。EMCGreenplum 2010 年 EMC 收购了 Greenplum 推出 EMC Greenplum 统一分析平台(UAP ),数据团队和分析团队可以在该平台上无缝地共享信息、协作分析。正因为如此,UAP 包括 ECM Greenplum 关系数据库、 EMC Gr
26、eenplum HD Hadoop 发行版和 EMC Greenplum Chorus。 EMC 为大数据开发的硬件是模块化的 EMC 数据计算设备( DCA),它能够在一个设备里面运行并扩展 Greenplum 关系数据库和 Greenplum HD 节点。DCA 提供了一个共享的指挥中心(Command Center)界面,让管理员可以监控、管理和配置 Greenplum 数据库和 Hadoop 系统性能及容量。随着 Hadoop 平台日趋成熟,预计分析功能会急剧增加。IBM Info Sphere Big Insights几年前,IBM 开始在其实验室尝试使用 Hadoop,在 2012
27、 年 5 月推出了 Info Sphere Big Insights 云版本的 Info Sphere Big Insights 使组织内的任何用户都可以做大数据分析。云上的Big Insights 软件可以分析数据库里的结构化数据和非结构化数据,使决策者能够迅速将洞察转化为行动。IBM 随后又在 10 月通过其智慧云企业( Smart Cloud Enterprise)基础架构,将 Big Insights 和 Big Sheets 作为一项服务来提供。据 IBM 声称,客户用不了 30 分钟就能搭建起 Hadoop 集群,并将数据转移到集群里面,数据处理费用是每个集群每小时 60 美分起价
28、Informatica 9.1 Informatica 公司在 2012 年 10 月推出了 HParser,这是一种针对 Hadoop 而优化的数据转换环境。据 Informatica 声称,软件支持灵活高效地处理 Hadoop 里面的任何文件格式,为 Hadoop 开发人员提供了即开即用的解析功能,以便处理复杂而多样的数据源,包括日志、文档、二进制数据或层次式数据,以及众多行业标准格式(如银行业的 NACHA、支付业的 SWIFT、金融数据业的 FIX 和保险业的 ACORD)。正如数据库内处理技术加快了各种分析方法,Informatica 同样将解析代码添加到 Hadoop 里面,以便充
29、分利用所有这些处理功能,不久会添加其他的数据处理代码。Informatica HParser 是 Informatica B2B Data Exchange 家族产品及 Informatica 平台的最新补充,旨在满足从海量无结构数据中提取商业价值的日益增长的需求。去年, Informatica 成功地推出了创新的 Informatica 9.1 for Big Data,是全球第一个专门为大数据而构建的统一数据集成平台。惠普Vertica 数据分析平台惠普 Vertica 5.0 在大数据分析领域站稳脚跟,能提供高效数据存储和快速查询的列存储数据库实时分析平台。该数据库还支持大规模并行处理(
30、MPP)。通过 MPP 的扩展性可以让 Vertica 为高端数字营销、电子商务客户(比如 AOL、Twitter 、 Groupon)分析处理的数据达到 PB 级。惠普展示了一款 Vertica 设备Vertica Analytics Appliance,和小冰箱差不多大小。它是惠普融合基础架构中的一款全集成技术栈。通过这款新设备“惠普可以真正打开这个市场,尤其是将分析作为一项服务的市场”。甲骨文Oracle Big Data Appliance甲骨文的 Big Data Appliance 集成系统包括 Cloudera 的 Hadoop 系统管理软件和支持服务 Apache Hadoop
31、 和 Cloudera Manager。甲骨文视 Big Data Appliance 为包括 Exadata、 Exalogic 和 Exalytics In-Memory Machine 的“建造系统”。Oracle 大数据机(Oracle Big Data Appliance),是一个软、硬件集成系统,在系统中融入了 Cloudera 的 Distribution Including Apache Hadoop、Cloudera Manager 和一个开源 R。该大数据机采用 Oracle Linux 操作系统,并配备 Oracle NoSQL 数据库社区版本和 Oracle HotSp
32、ot Java 虚拟机。Big Data Appliance 为全架构产品,每个架构 864GB 存储,216 个 CPU 内核,648TBRAW 存储,每秒 40GB 的InifiniBand 连接。Big Data Appliance 售价 45 万美元,每年硬软件支持费用为 12%。微软 SQL Server 2011 年初微软发布的 SQL Server R2 Parallel Data Warehouse(PDW,并行数据仓库),PDW 使用了大规模并行处理来支持高扩展性,它可以帮助客户扩展部署数百 TB 级别数据的分析解决方案。微软目前已经开始提供 Hadoop Connector
33、 for SQL Server Parallel Data Warehouse 和 Hadoop Connector for SQL Server 社区技术预览版本的连接器。微软在 2012 年推出了基于 Azure 云平台的测试版 Hadoop 服务,2013 年它推出与 Windows 兼容的基于Hadoop 的大数据解决方案(Big Data Solution)。亚马逊MapReduce 亚马逊早在 2009 年就推出了亚马逊弹性 MapReduce(Amazon Elastic MapReduce),弹性 MapReduce 是一项能够迅速扩展的 Web 服务,运行在亚马逊弹性计算云(
34、Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。实现面对数据密集型任务,比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,立即就能配置到多大容量。Teradata Teradata 是企业级数据仓库(EDW)的领导者,在数据库分析领域不断推陈出新,该公司购 Aster Data高级分析和管理各种非结构化数据领域的市场领导者和开拓者。Teradata 日前宣布了一项 Aster Data MapReduce 产品的计划,它建立在以往产品同样的硬件平台之上,而且在 Teradata 和 Aster Data 之间新增了两种集
35、成方法。1.6.1 大数据处理流程1、采集定义:利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作特点和挑战:并发系数高使用的产品:MySQL,Oracle,HBase,Redis 和 MongoDB 等,并且这些产品的特点各不相同2、统计分析定义:将海量的来自前端的数据快速导入到一个集中的大型分布式数据库或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据进行普通的查询和分类汇总等,以此满足大多数常见的分析需求特点和挑战:导入数据量大,查询涉及的数据量大,查询请求多使用的产品:InfoBright,Hadoop(Pig 和 Hive)
36、,YunTable,SAP Hana 和 Oracle Exadata,除 Hadoop 以做离线分析为主之外,其他产品可做实时分析3、挖掘定义:基于前面的查询数据进行数据挖掘,来满足高级别的数据分析需求特点和挑战:算法复杂,并且计算涉及的数据量和计算量都大使用的产品:R,Hadoop Mahout1.7 大数据的发展前景2013 年 5 月 10 日,阿里巴巴集团董事局主席马云在淘宝十周年晚会上,将卸任阿里集团 CEO 的职位,并在晚会上做卸任前的演讲,马云说: “大家还没搞清 PC 时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。 ”大数据正在改变着产品和生产过程、企
37、业和产业,甚至竞争本身的性质。把信息技术看作是辅助或服务性的工具已经成为过时的观念,管理者应该认识到信息技术的广泛影响和深刻含义,以及怎样利用信息技术来创造有力而持久的竞争优势。无疑,信息技术正在改变着我们习以为常的商业模式,一场关系到企业生死存亡的技术革命已经到来。借着大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约 40%的能源。抛开这个软件的前景不看,从微软团队致力于研究开始,可以看他们的目标不仅是为了节约了能源,更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。 “给我提供
38、一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。 ”微软史密斯这样说。而智能建筑正是他的团队专注的事情。随着全球范围内个人电脑、智能手机等设备的普及和新兴市场内不断增长的互联网访问量,以及监控摄像机或智能电表等设备产生的数据爆增,使数字宇宙的规模在 2012 到2013 两年间翻了一番,达到惊人的 2.8ZB。IDC 预计,到 2020 年,数字宇宙规模将超出预期,达到 40ZB。40ZB 究竟是个什么样的概念呢?地球上所有海滩上的沙粒加在一起估计有七万零五亿亿颗。40ZB 相当于地球上所有海滩上的沙粒数量的 57 倍。也就是说到 2020 年,数字宇宙将每两年翻一番;到 2020 年,人均数据量将达 5,247GB。该报告同时显示,尽管个人和机器每天产生大量数据,使数字宇宙前所未有地不断膨胀,但仅有 0.4%的全球数据得到了分析。由此可见,大数据的应用几乎是一块未被开垦的处女地。