第一讲什么是大数据-超星数字图书馆.ppt

上传人:ga****84 文档编号:458145 上传时间:2018-10-09 格式:PPT 页数:77 大小:2.84MB
下载 相关 举报
第一讲什么是大数据-超星数字图书馆.ppt_第1页
第1页 / 共77页
第一讲什么是大数据-超星数字图书馆.ppt_第2页
第2页 / 共77页
第一讲什么是大数据-超星数字图书馆.ppt_第3页
第3页 / 共77页
第一讲什么是大数据-超星数字图书馆.ppt_第4页
第4页 / 共77页
第一讲什么是大数据-超星数字图书馆.ppt_第5页
第5页 / 共77页
点击查看更多>>
资源描述

1、第三讲 大数据时代的变革,作者:英维克托 迈尔-舍恩伯格 肯尼思 库克耶,译者:盛劳燕 周涛,出版:浙江人民出版社,大数据时代,之拥抱,大数据时代读书笔记,制作:天天向Qian前,身处,大数据时代,!,我们已经处在大数据时代,可能还浑然不知,维克托教授将带我们一窥大数据时代的全景,时间就是生命!,省钱是硬道理!,Main topic,处理数据理念的思维变革挖掘数据价值的商业变革面对数据风险的管理变革,大数据时代,之拥抱,首先就要转变处理数据的理念,处理数据理念的思维变革,01,云计算能便宜、有效、高速地的对信息存储、分享和挖掘,采样分析是信息缺乏时代和信息流通受限制时代的产物,大数据时代读书笔

2、记,制作:天天向Qian前,大数据时代,的思维变革,01,更多,而是全体数据,不是随机样本,小数据时代受制于技术只能收集与分析随机样本,最少的数据获得最多的信息,大数据时代读书笔记,制作:天天向Qian前,穿孔卡片与美国人口普查美国宪法规定每10年进行一次人口普查;美国在1880年进行的人口普查,耗时8年才完成数据汇总,他们获得的很多数据都是过时的;1890年进行的人口普查,预计要花费13年的时间来汇总数据。人口普查局和霍尔瑞斯签订协议,用穿孔卡片制表机来完成1890年的人口普查, 结果1年内完成了人口普查的数据汇总工作。,大数据时代,的思维变革,01,更多,而是全体数据,不是随机样本,小数据

3、时代受制于技术只能收集与分析随机样本,大数据时代读书笔记,制作:天天向Qian前,采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。通过收集随机样本,我们可以用较少的花费做出高精准度的推断,因此,政府每年都可以用随机采样的方法进行小规模的人口普查,而不是只能每十年进行一次;随机采样被用来监管商品质量。将客户调查引进了零售行业,将焦点讨论引进了政治界,也将许多人文问题变成了社会科学问题。,大数据时代,的思维变革,01,更多,而是全体数据,不是随机样本,小数据时代受制于技术只能收集与分析随机样本,大数据时代读书笔记,制作:天天向Qian前,采样分析本身存在许多固有的缺陷它

4、的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见,分析结果就会相去甚远;随机采样不适合考察子类别的情况,当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了;随机采样能更快更容易地发现问题,但不能回答事先未考虑到的问题。随机采样忽视了细节考察。,大数据时代,的思维变革,01,更多,而是全体数据,不是随机样本,大数据时代读书笔记,制作:天天向Qian前,Xoom与跨境汇款异常交易报警Xoom是一个专门从事跨境汇款业务的公司,它会分析一笔交易的所有相关数据;2011年,它注意到用“发现卡”从新泽西州汇款的交易量比正常情况多一些,系统于是启动报警;这

5、个系统关注的是不应该出现的情况。单独来看,每笔交易都是合法的,但是事实证明这是一个犯罪集团在试图诈骗,而发现异常的唯一方法就是,重新检查所有的数据,找出样本分析法错过的信息。,大数据时代收集与分析全体数据是可行和便宜的,大数据时代,的思维变革,01,更多,而是全体数据,不是随机样本,大数据时代读书笔记,制作:天天向Qian前,大数据中的“大”不是绝对意义上的大列维特和他的同事马克达根使用了11年中超过64000场相扑比赛的记录,发现了非法操纵比赛结果的情况时有发生,在这个案例中,整个数据库包含的字节量还不如一张普通的数码照片包含得多,但却是使用所有比赛的极大数据。,大数据时代收集与分析全体数据

6、是可行和便宜的,大数据时代,的思维变革,02,更杂,而是混杂性,不是精确性,小数据时代因信息量少,对数据精确性更苛刻,大数据时代读书笔记,制作:天天向Qian前,执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。,大数据时代,的思维变革,02,更杂,而是混杂性,不是精确性,小数据时代因信息量少,对数据精确性更苛刻,大数据时代读书笔记,制作:天天向Qian前,对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量因为收集的信息量比较少,所以我

7、们必须确保记录下来的数据尽量精确。 在采样的时候,因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。,大数据时代,的思维变革,02,更杂,而是混杂性,不是精确性,大数据时代读书笔记,制作:天天向Qian前,大数据时代我们需要与各种各样的混乱做斗争随着数据的增加,错误率也会相应增加; 混乱还可以指格式的不一致性由于数据的高频率而丢失了数据的精确性“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。当我们试图扩大数据规模的时候,要学会拥抱混乱。,大数据时代追求大量数据,允许不精确的数据,大数据时代,的思维变革,02,更杂,而是混杂性,不是精确性,大数据时代读书笔记,制

8、作:天天向Qian前,大数据的简单算法比小数据的复杂算法更有效 微软寻求改进Word程序中语法检查的方法,往4种常见的算法中逐渐添加数据,先是一千万字,再到一亿字,最后到十亿。当数据只有500万的时候,有一种简单的算法表现得很差,但当数据达10亿的时候,它变成了表现最好的,准确率从原来的75%提高到了95%以上。与之相反地,在少量数据情况下运行得最好的算法,当加入更多的数据时,也会像其他的算法一样有所提高,但是却变成了在大量数据条件下运行得最不好的。它的准确率会从86%提高到94%。,大数据时代追求大量数据,允许不精确的数据,大数据时代,的思维变革,02,更杂,而是混杂性,不是精确性,大数据时

9、代读书笔记,制作:天天向Qian前,计算机翻译的发展冷战时期,美国掌握了大量关于苏联的各种资料,但缺少翻译这些资料的人手。1954年,IBM以计算机中的250个词语和六条语法规则为基础,将60个俄语词组翻译成了英语,结果振奋人心。 后来他们意识到,翻译比他们想象的更困难,因为机器翻译不能只是让电脑熟悉常用规则,还必须教会电脑处理特殊的语言情况。 在20世纪80年代后期,IBM提出了一个新的想法,他们试图让计算机自己估算一个词或一个词组适合于用来翻译另一种语言中的一个词和词组的可能性,将大约有300万句之多的加拿大议会资料译成了英语和法语并出版。,大数据时代追求大量数据,允许不精确的数据,大数据

10、时代,的思维变革,02,更杂,而是混杂性,不是精确性,大数据时代读书笔记,制作:天天向Qian前,计算机翻译的发展谷歌翻译开始利用一个更大更繁杂的数据库,也就是全球的互联网,而不再只利用两种语言之间的文本翻译。谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。其上万亿的语料库相当于950亿句英语,在所有的机器翻译中,谷歌的翻译质量相对而言还是最好的。谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制,而是因为谷歌翻译增加了很多各种各样的数据。,大数据时代追求大量数据,允许不精确的数据,大数据时代,的思维变革,02,更杂,而是混杂性,不是精确性,大数据时代读书笔记,制作:天天向Qian前

11、,我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷,是一个亟需我们去处理的现实问题,并且有可能长期存在,大数据时代追求大量数据,允许不精确的数据,大数据时代,的思维变革,02,更杂,而是混杂性,不是精确性,大数据时代读书笔记,制作:天天向Qian前,麻省理工与

12、通货紧缩预测软件美国劳工统计局的人员每个月都要公布消费物价指数(CPI),用来测试通货膨胀率;联邦政府每年花两亿五千万美元雇用很多人向全美90个城市的商店、办公室打电话、发传真甚至登门拜访。这些数据是精确的也是有序的,但是这个采集结果的公布会有几周的滞后。2008年的经济危机表明,这个滞后是致命的。MIT的两位经济学家,通过一个软件在互联网上收集信息,他们每天可以收集到50万种商品的价格。这个项目在2008年9月雷曼兄弟破产之后马上就发现了通货紧缩趋势,然而那些依赖官方数据的人直到11月份才知道这个情况。,大数据时代追求大量数据,允许不精确的数据,大数据时代,的思维变革,03,更好,而是相关关

13、系,不是因果关系,大数据时代相关关系大放异彩,小数据时代相关关系是有用的,大数据的核心:建立在相关关系分析基础上的预测。相关关系是:A与B经常一起发生。只要注意到B发生,就能预测A的发生。,大数据时代读书笔记,制作:天天向Qian前,大数据时代,的思维变革,03,更好,而是相关关系,不是因果关系,大数据时代相关关系大放异彩,小数据时代相关关系是有用的,大数据时代读书笔记,制作:天天向Qian前,亚马逊推荐系统早期书评家使得书籍销量猛增;尝试根据客户个人以前的购物喜好,通过样本分析找到客户之间的相似性,为其推荐具体的书籍;推荐系统通过找到产品之间的关联性,因为估算可以提前进行,所以推荐系统快如闪

14、电,而且适用于各种各样的产品。评论家所创造的销售业绩和计算机生成内容所产生的销售业绩的对比测试,结果通过数据推荐产品所增加的销售远远超过书评家的贡献。,大数据时代,的思维变革,03,更好,而是相关关系,不是因果关系,大数据时代相关关系大放异彩,小数据时代相关关系是有用的,大数据时代读书笔记,制作:天天向Qian前,相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。 通过给我们找到一个现象的良好的关联物, 相关关系可以帮助我们捕捉现在和预测未来。如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。 关联物,预测的

15、关键,大数据时代,的思维变革,03,更好,而是相关关系,不是因果关系,大数据时代相关关系大放异彩,小数据时代相关关系是有用的,大数据时代读书笔记,制作:天天向Qian前,沃尔玛,请把蛋挞与飓风用品摆在一起2004年,沃尔玛对历史交易记录这个庞大的数据库进行了观察,这个数据库记录的不仅包括每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当日的天气。沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便行色匆匆的顾客从而增加销量。,大数据时代,的思维变革,0

16、3,更好,而是相关关系,不是因果关系,大数据时代相关关系大放异彩,小数据时代相关关系是有用的,大数据时代读书笔记,制作:天天向Qian前,小数据时代,相关关系就已经被证明大有用途但由于数据很少而且收集数据很费时费力,所以统计学家们喜欢找到一个关联物,然后收集与之相关的数据进行相关关系分析来评测这个关联物的优劣如何寻找这个关联物呢?除了依靠相关关系,专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。在大数据时代,复杂的机器分析能为我们辨认出谁是最好的代理,就像在谷歌流感趋势中,计算机把检索词条在5亿个数学模型上进行测试之后,准确地找出了哪些是与流感传播最相关的词条。,大数据时代

17、,的思维变革,03,更好,而是相关关系,不是因果关系,大数据时代相关关系大放异彩,小数据时代相关关系是有用的,大数据时代读书笔记,制作:天天向Qian前,小数据时代,相关关系就已经被证明大有用途但由于数据很少而且收集数据很费时费力,所以统计学家们喜欢找到一个关联物,然后收集与之相关的数据进行相关关系分析来评测这个关联物的优劣如何寻找这个关联物呢?除了依靠相关关系,专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。在大数据时代,复杂的机器分析能为我们辨认出谁是最好的代理,就像在谷歌流感趋势中,计算机把检索词条在5亿个数学模型上进行测试之后,准确地找出了哪些是与流感传播最相关的词

18、条。,大数据时代,的思维变革,03,更好,而是相关关系,不是因果关系,大数据时代相关关系大放异彩,小数据时代相关关系是有用的,大数据时代读书笔记,制作:天天向Qian前,小数据时代,相关关系就已经被证明大有用途但由于数据很少而且收集数据很费时费力,所以统计学家们喜欢找到一个关联物,然后收集与之相关的数据进行相关关系分析来评测这个关联物的优劣如何寻找这个关联物呢?除了依靠相关关系,专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。在大数据时代,复杂的机器分析能为我们辨认出谁是最好的代理,就像在谷歌流感趋势中,计算机把检索词条在5亿个数学模型上进行测试之后,准确地找出了哪些是与流

19、感传播最相关的词条。,大数据时代,的思维变革,03,更好,而是相关关系,不是因果关系,大数据时代相关关系大放异彩,小数据时代相关关系是有用的,大数据时代读书笔记,制作:天天向Qian前,建立在相关关系分析法基础上的预测是大数据的核心美国个人消费信用评估公司FICO,在2011年提出了“遵从医嘱评分”它分析一系列的变量来确定这个人是否会按时吃药,包括比方说,一个人在某地居住了多久,这个人结婚了没有,他多久换一个工作以及他是否有私家车。这个评分会帮助医疗机构节省开支,因为它们会知道哪些人需要得到它们的用药提醒。,大数据时代,的思维变革,03,更好,而是相关关系,不是因果关系,大数据时代相关关系大放

20、异彩,小数据时代相关关系是有用的,大数据时代读书笔记,制作:天天向Qian前,建立在相关关系分析法基础上的预测是大数据的核心另一个征信机构,益百利(Experian)有一种服务,可以根据个人的信用卡交易记录预测个人的收入情况。证明一个人的收入状况要花费10美元左右,但是益百利的预测结果售价不足1美元。中英人寿保险有限公司利用信用报告和顾客市场分析数据来作为部分申请人的血液和尿液分析的关联物。这些分析结果被用来找出更有可能患高血压、糖尿病和抑郁症的人。其中用来分析的数据包括好几百种生活方式的数据,比如爱好、常浏览的网站、常看的节目、收入估计等。通过利用相关关系,保险公司可以在每人身上节省125美

21、元,然而这个纯数据分析法只需要花费5美元。,大数据时代,的思维变革,03,更好,而是相关关系,不是因果关系,大数据时代相关关系大放异彩,小数据时代相关关系是有用的,大数据时代读书笔记,制作:天天向Qian前,美国折扣零售商塔吉特与怀孕预测:公司的分析团队注意到,婴儿礼物签收登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后,她们会买一些营养品,比如镁、钙、锌。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券,这才是塔吉特公司的目的。 UPS与汽车修理预

22、测UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规模的车队,这样就能及时地进行防御性的修理。以前UPS每两三年就会对车辆的零件进行定时更换。但这种方法不太有效,因为有的零件并没有什么毛病就被换掉了。通过监测车辆的各个部位,UPS如今只需要更换需要更换的零件,从而节省了好几百万美元。,大数据时代,之拥抱,其次就要转变数据价值的获取方式,挖掘数据价值的商业变革,02,大数据时代的重要价值在数据深挖掘,数据的价值来源于万物数据化和数据交叉复用,大数据时代读书笔记,制作:天天向Qian前,大数据时代,的商业变革,01,数据化,数据交叉复用,一切皆可量化,变革的基础一切事

23、物都可量化,变为数据,变革的重点由T(技术)转变到I(信息)上,大数据时代读书笔记,制作:天天向Qian前,大数据最早的实践莫里的导航图,美国海军军官马修方丹莫里,Question:船只在水上绕弯儿不走直线? Answer:走熟悉的路线比冒险走一条不熟悉而且可能 充满危险的路线要好得多 Query:很重大的遗漏和离谱的错误,WWW.COMPANYSITE.COM | INFOCOMPANYSITE.COM | +12 34 567 890 | LONG STREET 12345, CITY, COUNTRY,莫里对船只在水上绕弯儿不走直线而感到十分不解从大量破旧的航海日志中提取出有用的数据,如

24、:对特定日期、特定地点的风、水和天气情况的记录。莫里整合了数据之后,把整个大西洋按经纬度划分成了五块,并按月份标出了温度、风速和风向;为了提高精确度,莫里创建了一个标准的表格来记录航海数据。,31,大数据最早的实践莫里的导航图,作用: 航海路程减少了三分之一左右 为第一根跨大西洋电报电缆的铺设奠定了基础 甚至应用到了天文学领域海王星的运行轨迹,大数据时代,的商业变革,01,数据化,数据交叉复用,一切皆可量化,变革的基础一切事物都可量化,变为数据,变革的重点由T(技术)转变到I(信息)上,大数据时代读书笔记,制作:天天向Qian前,数据,从最不可能的地方提取出来庞大的数据库有着小数据库所没有的价

25、值,大数据的核心就是挖掘出庞大的数据库独有的价值。莫里就深知只要相关信息能够提取和绘制出来,那些些脏乱的航海日志就可以变成有用的数据。通过这样的方式,他重复利用了别人眼里完全没有意义的数据信息奥伦埃齐奥尼对Farecast所做的事情一样,用航空业过去的价格信息催生了一个大有赚头的新公司;谷歌的工程师通过过去的检索记录预测到了流感的爆发,大数据时代,的商业变革,01,数据化,数据交叉复用,一切皆可量化,变革的基础一切事物都可量化,变为数据,变革的重点由T(技术)转变到I(信息)上,大数据时代读书笔记,制作:天天向Qian前,日本的坐姿研究与汽车防盗系统当一个人坐着的时候,他的身形、姿势和重量分布

26、都可以量化和数据化。越水重臣等通过360个压力传感器以测量人对椅子施加压力的方式。把人体坐姿特征转化成了数据,产生独属于每个乘坐者的精确数据资料。这项技术 作为汽车防盗系统安装在汽车上。有了这个系统之后,汽车就能识别出驾驶者是不是车主;如果不是,系统就会要求司机输入密码;如果司机无法准确输入密码,汽车就会自动熄火通过汇集这些数据,可以利用事故发生之前的姿势变化情况,分析出坐姿和行驶安全之间的关系。这个系统同样可以在司机疲劳驾驶的时候发出警示或者自动刹车。同时,这个系统不但可以发现车辆被盗,而且可以通过收集到的数据识别出盗贼的身份。,大数据时代,的商业变革,01,数据化,数据交叉复用,一切皆可量

27、化,变革的基础一切事物都可量化,变为数据,变革的重点由T(技术)转变到I(信息)上,数字化:模拟数据转换成用“0”和“1”表示的二进制码。例:书页的扫描,无法检索内容数据化:把一种现象转换为可制表分析的量化形式的过程。例:书变成数据化文本,可检索,大数据时代读书笔记,制作:天天向Qian前,数据化,不是数字化,谷歌图书谷歌与全球最大和最著名的图书馆进行了合作,对上百万书籍进行扫描,每一页都被扫描然后存入谷歌服务器的一个高分辨率数字图像文件中数字化文本(不能检索,不能分析)谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本计算机

28、也可以处理和分析这些文本数据,可以检索和查询,可以文本分析,大数据时代,的商业变革,01,数据化,数据交叉复用,一切皆可量化,变革的基础一切事物都可量化,变为数据,变革的重点由T(技术)转变到I(信息)上,大数据时代读书笔记,制作:天天向Qian前,当方位变成数据随着汽车装上了无线传感器,地理位置信息的数据化深刻变革了保险的概念。在英国,车主可以根据他的实际驾驶地点和时间购买汽车保险,这种保险定价法激励投保人产生更好的行为习惯。同时,这改变了保险的基础,从考虑一个群体的平均风险转变为个性化的分析。UPS快递多效地利用了地理定位数据。为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障

29、,它的货车上装有传感器、无线适配器和GPS。同时,这些设备也方便了公司监督管理员工并优化行车线路。 2011年,UPS的驾驶员们少跑了近4828万公里的路程,节省了300万加仑的燃料并且减少了3万公吨的二氧化碳排放量。,大数据时代,的商业变革,01,数据化,数据交叉复用,一切皆可量化,变革的基础一切事物都可量化,变为数据,变革的重点由T(技术)转变到I(信息)上,大数据时代读书笔记,制作:天天向Qian前,当方位变成数据AirSage每天通过处理来自上百万手机用户的150亿条位置信息,为超过100个美国城市提供实时交通信息。位置信息一被数据化,新的用途就犹如雨后春笋般涌现出来,而新价值也会随之

30、不断催生。,大数据时代,的商业变革,01,数据化,数据交叉复用,一切皆可量化,变革的基础一切事物都可量化,变为数据,变革的重点由T(技术)转变到I(信息)上,大数据时代读书笔记,制作:天天向Qian前,当沟通变成数据社交网络平台不仅给我们提供了寻找和维持朋友、同事关系的场所,也将我们日常生活的无形元素提取出来,再转化为可作新用途的数据。Facebook2012年拥有大约10亿用户,他们通过上千亿的朋友关系网相互连接。这个巨大的社交网络覆盖了大约10%的全球总人口;一些消费者信贷领域的创业公司正考虑开发以Facebook社交图谱为依据的信用评分。研究表明个人会偿还债务的可能性和其朋友会偿还债务的

31、可能性呈正相关。正应了一句老话:物以类聚,人以群分。,大数据时代,的商业变革,01,数据化,数据交叉复用,一切皆可量化,变革的基础一切事物都可量化,变为数据,变革的重点由T(技术)转变到I(信息)上,大数据时代读书笔记,制作:天天向Qian前,当沟通变成数据社交网络平台不仅给我们提供了寻找和维持朋友、同事关系的场所,也将我们日常生活的无形元素提取出来,再转化为可作新用途的数据。Facebook2012年拥有大约10亿用户,他们通过上千亿的朋友关系网相互连接。这个巨大的社交网络覆盖了大约10%的全球总人口;一些消费者信贷领域的创业公司正考虑开发以Facebook社交图谱为依据的信用评分。研究表明

32、个人会偿还债务的可能性和其朋友会偿还债务的可能性呈正相关。正应了一句老话:物以类聚,人以群分。,大数据时代,的商业变革,01,数据化,数据交叉复用,一切皆可量化,变革的基础一切事物都可量化,变为数据,变革的重点由T(技术)转变到I(信息)上,大数据时代读书笔记,制作:天天向Qian前,当沟通变成数据Twitter公司实现了人们想法、情绪和沟通的数据化,许多公司对微博做了句法分析和情感分析,获得顾客反馈意见的汇总或对营销活动的效果进行判断。两家对冲基金,伦敦的英国对冲基金(Derwent Capital)和加利福尼亚的MarketPsych开始分析微博的数据文本,以作为股市投资的信号。Linke

33、dIn将我们过去漫长的经历进行了数据化处理,就像莫里转化旧航海日志那样,把信息转化为对现在和将来的预测:我们可以认识谁,或者哪里存在一份心仪的工作。,大数据时代,的商业变革,01,数据化,数据交叉复用,一切皆可量化,变革的基础一切事物都可量化,变为数据,变革的重点由T(技术)转变到I(信息)上,大数据时代读书笔记,制作:天天向Qian前,世间万物的数据化“自我量化”是一项由一群健身迷、医学疯子以及技术狂人发起的运动,通过测量身体的每一个部位和生活中的每一件事来让生活更美好或者至少用量化的方式来获得新知。Zeo公司则早已制作出了世界上最大的睡眠活动数据库,揭示了男性与女性睡眠时快速眼动量的差异。

34、Asthmapolis公司将一个感应器绑定到哮喘病人佩戴的呼吸器上,通过GPS定位,再汇总收集起来的位置数据,可以判断环境因素(如接近特定的农作物)对哮喘的影响。,大数据时代,的商业变革,01,数据化,数据交叉复用,一切皆可量化,变革的基础一切事物都可量化,变为数据,变革的重点由T(技术)转变到I(信息)上,大数据时代读书笔记,制作:天天向Qian前,世间万物的数据化Fitbit和Jawbone公司让人们测量他们的体力活动和睡眠。Basis公司用腕带来监测佩戴者的生命体征,包括其心率和皮肤电传导率,以此测试他们所承受的压力。2009年,苹果公司就申请了一项专利,通过音频耳塞收集关于血液氧合、心

35、率和体温的数据。一旦世界被数据化,就只有你想不到,而没有信息做不到的事情了。,大数据时代,的商业变革,02,价值,之不竭的创新,取之不尽,用,真实价值隐藏在冰山之下,数据价值不会随使用次数而减少,可以重复挖掘,大数据时代读书笔记,制作:天天向Qian前,数据的潜在价值主要通过前3种方式释放:01.数据再利用 02.重组数据 03.可扩展数据04 . 数据的折旧值 05 . 数据废气 06开放数据,大数据时代,的商业变革,02,价值,之不竭的创新,取之不尽,用,真实价值隐藏在冰山之下,数据价值不会随使用次数而减少,可以重复挖掘,大数据时代读书笔记,制作:天天向Qian前,数据的“潜在价值”电动汽

36、车能否成功地作为一种交通工具成功普及与电池的寿命相关。但电动汽车充电站的需求和设置点目前还不得而知。IBM基于汽车的电池电量、汽车的位置、电网的电流消耗以及历史功率等,开发了一套复杂的预测模型。能够确定司机为汽车电池充电的最佳时间和地点,并揭示充电站的最佳设置点。汽车的电池电量指示器告诉司机应当何时充电,电网的使用数据可以通过设备收集到,从而管理电网的稳定性。这些都是一些基本的用途。这两组数据都可以找到二级用途,即新的价值。它们可以应用于另一个完全不同的目的:确定何时何地充电以及电子汽车服务站的设置点。,大数据时代,的商业变革,02,价值,之不竭的创新,取之不尽,用,真实价值隐藏在冰山之下,数

37、据价值不会随使用次数而减少,可以重复挖掘,大数据时代读书笔记,制作:天天向Qian前,数据再利用数据创新再利用的一个典型例子是搜索关键词。消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表,实现了那一刻的特定功能。貌似搜索结束后就一切over了,其实不然:Hitwise公司让客户采集搜索流量来揭示消费者的喜好。通过Hitwise营销人员可以了解到粉红色是否会成为今夏的潮流色,或者黑色是否会回归潮流。谷歌整理了一个版本的搜索词分析,公开供人们查询,并与西班牙第二大银行BBVA合作推出了实时经济指标以及旅游部门的业务预报服务,这些指标都是基于搜索数据得到的。英国央行通过搜索查询房地产的相关信

38、息,更好地了解到了住房价格的升降情况。,大数据时代,的商业变革,02,价值,之不竭的创新,取之不尽,用,真实价值隐藏在冰山之下,数据价值不会随使用次数而减少,可以重复挖掘,大数据时代读书笔记,制作:天天向Qian前,数据重组处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出丹麦癌症协会:手机是否增加致癌率。这项研究分析了1990年至2007年间拥有手机的用户共涉及358403人。该国同时记录了所有癌症患者的信息,在那期间共有10729名中枢神经系统肿瘤患者。结合这两个数据集后,研究人员开始寻找两者的关系:手机用户是否比非手机用户显示出较高的癌症发病率?使用手机时间较长的用户

39、是否比时间较短的用户更容易患上癌症?研究没有发现使用移动电话和癌症风险增加之间存在任何关系。,大数据时代,的商业变革,02,价值,之不竭的创新,取之不尽,用,真实价值隐藏在冰山之下,数据价值不会随使用次数而减少,可以重复挖掘,大数据时代读书笔记,制作:天天向Qian前,可扩展数据促成数据再利用的方法之一是从一开始就设计好它的可扩展性零售商在店内安装了监控摄像头,这样不仅能认出商店扒手,还能跟踪在商店里购物的客户流和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并判断营销活动的有效性。谷歌街景汽车不仅拍摄了房屋和道路的照片,还同时采集GPS数据,检查地图的信息,这些数据之所以具有可扩

40、展性,是因为谷歌不仅将其用于基本用途,而且进行了大量的二次使用。例如,GPS数据不仅优化了其地图服务,而且对谷歌自动驾驶汽车的运作功不可没。,大数据时代,的商业变革,02,价值,之不竭的创新,取之不尽,用,真实价值隐藏在冰山之下,数据价值不会随使用次数而减少,可以重复挖掘,大数据时代读书笔记,制作:天天向Qian前,数据的折旧随着数据存储成本的大幅下降,企业拥有了更强的经济动机来保存数据,并再次用于相同或类似的用途。但是,其有效性是有限的。随着时间的推移,大多数数据都会失去一部分基本用途。比如十年前你在亚马逊买了一本书,而现在你可能已经对它完全不感兴趣。这就需要不断地更新数据库并淘汰无用信息。

41、这时面临的挑战就是如何得知哪些数据不再有价值。然而,并非所有的数据都会贬值。,大数据时代,的商业变革,02,价值,之不竭的创新,取之不尽,用,真实价值隐藏在冰山之下,数据价值不会随使用次数而减少,可以重复挖掘,大数据时代读书笔记,制作:天天向Qian前,数据废气:即人们在网上留下的数字轨迹,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等在过去的20多年中,微软为其Word软件开发出了一个强大的拼写检查程序,通过与频繁更新的字典正确拼写相比较来对用户键入的字符流进行判断。字典囊括了所有已知词汇,系统将拼写相似但字典中没有的词汇判断为拼写错误,并对其进行纠正。由于需要不断编译

42、和更新字典,微软Word的拼写检查仅适用于最常用的语言,且每年需要花费数百万美元的创建和维护费用。谷歌几乎是“免费”地获得了这种拼写检查,它依据的是其每天处理的30亿查询中输入搜索框中的错误拼写。一个巧妙的反馈循环可以将用户实际想输入的内容告知系统。,大数据时代,的商业变革,02,价值,之不竭的创新,取之不尽,用,真实价值隐藏在冰山之下,数据价值不会随使用次数而减少,可以重复挖掘,大数据时代读书笔记,制作:天天向Qian前,数据废气:即人们在网上留下的数字轨迹,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等电子书阅读器捕捉了大量关于文学喜好和阅读人群的数据:读者阅读一页或

43、一节需要多长时间,读者是略读还是直接放弃阅读,读者是否画线强调或者在空白处做了笔记,这些他们都会记录下来。这就将阅读这种长期被视为个人行为的动作转换成了一种共同经验。一旦聚集起来,就可以用量化的方式向出版商和作者展示一些他们可能永远都不会知道的信息,如读者的好恶和阅读模式。这是十分具有商业价值的。电子图书出版公司可以将这些信息卖给出版商,从而帮助改进书籍的内容和结构。,大数据时代,的商业变革,02,价值,之不竭的创新,取之不尽,用,真实价值隐藏在冰山之下,数据价值不会随使用次数而减少,可以重复挖掘,大数据时代读书笔记,制作:天天向Qian前,开放数据政府才是大规模信息的原始采集者,data.g

44、ov网站是美国联邦政府的公开信息资料库。网站从2009年的47个数据集迅速发展起来,到2012年7月三周年时,数据集已达45万个左右,涵盖了172个机构。FlyOnTime的航班时间预测:将交通运输局的历史航班延误数据和美国联邦航空管理局的机场信息,以及美国国家海洋和大气管理局的以往天气报告和国家气象服务的实时状态结合起来,判断恶劣天气使某一特定机场的航班延迟的可能性有多大,大数据时代,的商业变革,03,角色定位,思维的三足鼎立,数据、技术与,大数据价值链中主要存在三种公司:01基于数据本身的公司 02基于技能的公司 03基于思维的公司,大数据早期价值来自思维和技术,大数据中后期价值必须从数据

45、本身中挖掘,大数据时代,的商业变革,03,角色定位,思维的三足鼎立,数据、技术与,大数据早期价值来自思维和技术,大数据中后期价值必须从数据本身中挖掘,大数据掌控公司:这些公司拥有大量数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。Twitter,它拥有海量数据这一点是毫无疑问的,但是它的数据都通过两个独立的公司授权给别人使用。VISA和MasterCard:MasterCard Advisors收集和分析了来自210个国家的15亿信用卡用户的650亿条交易记录,用来预测商业发展和客户的消费趋势。然后,它把这些分析结果卖给其他公司。,大数据时代,的商业变革

46、,03,角色定位,思维的三足鼎立,数据、技术与,大数据早期价值来自思维和技术,大数据中后期价值必须从数据本身中挖掘,大数据技术公司:拥有技术和专业技能的公司埃森哲咨询公司:在与密苏里州圣路易斯市共同合作的一个实验项目中,它给20辆公交车安装了无线传感器来监测车辆引擎的工作情况。这些数据被用来预测公交车什么时候会抛锚以及维修的最佳时机。研究促使车辆更换零件的周期从30万或者40万公里变成了50万公里,仅这一项研究结果就帮助该城市节省了60万美元。沃尔玛和Pop-Tarts这两个零售商就是借助天睿公司(Teradata)的分析来获得营销点子,天睿就是一家大数据分析公司。,大数据时代,的商业变革,0

47、3,角色定位,思维的三足鼎立,数据、技术与,大数据早期价值来自思维和技术,大数据中后期价值必须从数据本身中挖掘,大数据思维公司和个人:他们能先人一步发现机遇,尽管本身并不拥有数据也不具备专业技能。布拉德福德克罗斯很好地解释了什么是有大数据思维。在他20多岁的时候,他和四个朋友一起创办了FlightC。这个网站致力于预测航班是否会晚点。它主要基于分析过去十年里每个航班的情况,然后将其与过去和现实的天气情况进行匹配。克罗斯后来又成立了科技创新公司Prismatic收集网上资源并排序,这种排序建立在文本分析、用户喜好、社交网络普及和大数据分析的基础之上。 Prismatic关注的是年青一代与媒体进行交流的新方法,信息的来源并不重要,而关于是否受欢迎,是通过它的点击率和分享次数来体现的。,大数据时代,的商业变革,03,角色定位,思维的三足鼎立,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。