1、什么是数据科学?( 1) Posted On 星期二 , 18 一 2011 By admin. Under Knowledge Tags: Data Science, Google, Translation 原文链接: http:/ 我们都听说过:根据 Hal Varian 的说法,统计学就是下一代给力的工作( statistics is the next sexy job)。 5年前,在什么是 Web 2.0( What is Web 2.0)的讨论中, Tim OReilly说 “数据就是下一个 intel inside”。但这到底什么意思?为什么我们突然酒开始关注统计学和数据了? 文中
2、,我会提到数据科学的方方面面 技术,公司,以及独一无二的技能集。 什么是数据科学? 网络上充满各种 “数据驱动类应用( data-driven apps) ”。几乎任何电子商务应用都是数据驱动类的应用程序。在 web界面的后面是个数据库,二者之间有与数据和数据服务(如信用卡处理公司、银行等)交互的中间件。但只是 “用数据 ”并不能被称作 “数据科学 ”。一个数据应用程序从数据本身获得数值,并创造出更多的数据作为结果。这并不仅仅是用数据的应用程序,它是一个数据产品。而数据科学就是使得创建数据产品变成可能的学科。 网络中早期的数据产品是 CDDB database(译者注: Compact Dis
3、c Database,一种支持通过 网络访问音频信息的数据库)。 CDDB 的开发者认识到任何 CD都有一个唯一的签名,(举例来说)这基于每个音轨的长度。 Gracenote(译者注: CDDB的开发公司)建立了一个关于音轨长度的数据库,并将它与专辑元数据信息(音轨名,表演者,专辑名等)数据库结合。如果你用过 iTunes烧录 CD,你就应用到这个数据库了。在做任何其他事情之前,iTunes读取每个音轨的长度,发送给 CDDB,并获得音轨的标题信息,如果你有个 CD不在数据库中(包括你自制的 CD),你可以为这个未知专辑创建新条目。尽管这听起来很简单,但它是革 命性的: CDDB 把音乐视为数
4、据,而非音频文件,并通过创建数值来做到这一点。他们的业务与贩卖音乐、共享音乐或分析音乐的品味(尽管这些也是 “数据产品 ”)有着本质不同。 CDDB将音乐问题完全视为数据问题。 Google是创建数据产品的专家。有一些例子: Google的突破在于意识到搜索引擎可以不仅仅是通过页面输入文字(来进行搜索)。Google的 PageRank算法会首先使用页面本身以外的数据,特别是指向页 面的连接数量。追踪连接使得 Google搜索更加有用,而 PageRank已经是公司成功的关键部分。 拼写检查并不是非常困难的问题,但通过纠错建议来纠正那些误写的搜索,并观察用户对相应的点击, Google使之更为
5、精确。他们已经构造了一个字典,包含了通用拼写错误,它们的正确拼写,以及发生的上下文。 语言识别一直是个难题,现在依然如此。但 Google通过使用他们搜集的音频数据,已取得重大进展,如今他们已经将语音搜索( voice search)整合到核心搜索引擎中了。 在 2009 年的猪流感疫情中, Google能够通过跟踪针对流感相关主题的搜索( by following searches for flu-related topics),来追踪疫情进展。 Flu trends Google 可以通过分析不同区域人们的搜索,比疾病控制中心提前两周绘制出猪流感疫情大概的趋向。 Google并不是唯一一个
6、知道如何应用数据的。 Facebook和 LinkedIn 使用好友关系规律来提示你那些你可能认识的人,有时候精确的难以置信。 Amazon干脆省省去你的搜索,将你搜的和其他用户搜的相结合,来做出令人惊讶的合适推荐。这些推荐就是 “数据产品 ”,推动了 Amazon的传统零售业务。这一切都源于 Amazon明白书不仅是书,客户不仅是客户; 客户会留下数据线索,通过对其挖掘并付诸使用 把照相机当作能与客户行为(每次用户访问网站都会留下的数据)相关联的数据。 将所有这些应用绑在一起的是从用户提供的数值中搜集来的数据。无论这种数据是被搜索的术语,音频样本,还是对某产品的一次查阅,用户一直在为他们所使
7、用的产品贡献着数据,而他们也会在这种循环中获益。这就是数据科学的起点。 在过去几年,可用数据爆发式增长。无论是我们说的网络服务器日志, tweet流,在线交易记录,还是来自政府的 “公民科学 ”数据,抑或其他数据源的数据,问题的关键不是找到数据,而是如何用数据。而且,公司不仅仅用到他们自己的数据,还有用 户贡献的数据。从好多源头中混搭数据已经越来越稀松平常。 “Data Mashups in R”分析了费城的丧失抵押品赎回权( mortgage foreclosures)的情况:通过警长办公室发布的一份报告,抽取其中的地址,用Yahoo将地址转变为经纬度,然后用地理数据在地图(或其他数据源)标
8、注 foreclosures,并将它们通过邻里关系,估价,人均收入和其他社会经济因素进行分组。 每个已有的公司,每个新起步的公司,每个非营利机构,每个希望吸引社群的项目,它们面临着同样的问题就是如何更有效的使用数据 不仅仅 是它们自身的数据,也有可用的、相关的全部数据。有效的使用数据所要求的东西和传统的统计不一样,后者是业务单元中的统计人员执行的计算,而这些计算实际上都是预先定义好的了。数据科学与统计学的不同之处在于,数据科学是一个整体方法( holistic approach)。我们会发现越来越多的 “野生 ”数据,而数据科学会被涉及到数据采集,将其转化为易于理解的形式,使它能说明问题,并将
9、这说明呈现出来。( Were increasingly finding data in the wild, and data scientists are involved with gathering data, massaging it into a tractable form, making it tell its story, and presenting that story to others.) 要明白需要何种技能,让我们先看看数据的生命周期:何从,何用,何去。( where it comes from, how you use it, and where it goes) 什
10、么是数据科学?( 2):数据之源 Posted On 星期 三 , 19 一 2011 By admin. Under Knowledge Tags: Data Science, Google, Translation 原文链接: http:/ 本系列共分为 4部分 第一部分: 什么是数据科学?( 1) 数据之源 数据无处不在:你的政府机构,网络服务器,商业合作伙伴,甚至你的身体( your body)。虽然我们不会在数据的海洋中淹没,但我们发现几乎世上万物都能(或者已经是)可被度量。在 OReilly,我们经常将来自 Nielsen BookScan 的出版行业的数据与我们自身 销售数据、A
11、mazon公开的数据,甚至工作方面的数据进行比较,来看看出版业的行情如何。像Infochimps 和 Factual 这样的网站提供了对许多大型数据集的存取,包括气象数据,MySpace活动数据流,体育运动的比赛日志。 Factual征集用户来更新和改进数据集,这些数据涵盖了从内分泌到徒步旅行等各种各样的主题。 1956 年的磁盘 世界上最早的商用磁盘之一来自 IBM。它有 5MB容量并且被放在跟现在的豪华冰箱差不多大小的容器中。现在,一个 32GB的 microSD卡只有大约 5/8 x 3/8 英寸、 0.5克重。 Photo: Mike Loukides. Disk drive on d
12、isplay at IBM Almaden Research 我们目前用到的大多数数据都是直接源自 Web 2.0,而摩尔定律也适用于数据。网络让人们花费更多的时间在线上,无 论他们访问哪里都会留下数据线索。移动应用更甚,因为它们大都会注释地理位置,或者涉及视频、音频,所有这些都可以被发掘。点销售设备( Point-of-sale devices)和频繁使用的购物卡( frequent-shoppers cards)使得获取你全部的购买事件成为可能,这不仅仅是你在线的事件。如果我们不去存储,那这些数据毫无用处,(因为存储,所以)这时候摩尔定律就起作用了。从上世纪 80年代早期,处理器的速度从
13、10MHz增长到 3.6GHz提升了 360倍(没把字长和核数算在内)。但我们已经看到在数据存 储的方方面面更强的增长。 RAM从 $1,000/MB 变成 $25/GB降价达到 40000倍,这还没提到存储介质大小的降低以及速度的提升。日立在 1982 年造了第一个 G级磁盘,搭盖 250磅重;现在 T级磁盘设备都已经是消费型的了,而 32GB的 microSD卡仅仅 0.5克。无论你是按照 bits/gram, bits/dollar来算,还是单按容量来算,数据存储方面的爆增远超过 CPU速度的增加。 摩尔定律应用到数据领域的重要性并不仅仅是为了炫。数据充满了你的存储空间。有越来越多的空间
14、,就有越来越多的数据。无论你何时上 网,在 Facebook加个好友,或者在你当地的超市买个东西,你都会留下数据,这些数据会被收集和分析。增长的存储需求增加了分析与应用数据的复杂性。这是数据科学的基础。 那我们怎么让数据有用?数据分析项目的第一步是 “数据调节( Data Conditioning) ”,或者说是将数据转化为有用的状态。我们看到越来越多的数据是在易于使用的格式: Atom data feeds, web服务,微格式,和其他新技术让数据的格式变得直接可用( in formats thats directly machine-consumable)。但老式的 screen scra
15、ping 还健在,也不会轻易废弃。许多 “野生数据 ”的源头都是一团乱麻。它们没有 XML文件那样良好的元数据结构。在 “Data Mashups in R”中用到的赎回权数据通过费城警局 发布到公共网络。这数据可能是自动用电子表格生成的 HTML文件。如果你曾看过 Excel生成的 HTML,你就知道处理它会有多有趣了。 数据调节涉及到使用像 Beautiful Soup 这样的工具来清理混乱的 HTML,将自然语言转化为英语或其他语言,甚至需要人为做这些破事。你很可能会要去处理一组数据源,这些数据是完全不同的形式。如果有个标准化工具来做就太好了,但没有。要做数据调节,你要做好充足 的准备,
16、并愿意用任何手段,从古老的 Unix awk工具,到 XML解析器和库。脚本语言,如 Perl和 Python,是绝对必要的。 一旦你解析好了数据,你可以想想数据质量问题。数据总是被丢失或不一致。如果数据丢失,你是否只是忽略那些丢失的项?这不总是可行的。如果数据不一致,你是否就决定是数据问题导致了一些错误,或者说那些不一致的数据自身说明了一些问题,这些很可能更有趣?据报道称,发现臭氧层消耗逐渐减小,是由于自动化数据收集工具由于数值太低不在读取数据( automated data collection tools discarded readings that were too low 1)。在
17、数据科学中,你所拥有的经常是你会得到的全部。通常很难再获得 “更好的 ”数据了,要用这些手头上的数据进行工作,你别无选择。 如果问题还牵涉了人类语言,理解数据就增加了额外的难度。 Roger Magoulas,在 OReilly主管数据分析小组,他最近在做一个搜索,来找出 Apple公司的需要地理位置技能的招工列表。这听起来是个很容易的任务,但难点在于从越来越多的苹果产业工作帖子中消去那些歧义的 “Apple”。为了做到这一点,你要理解招工帖子的语法结构;你需要把它们转成英文。后来问题越来越多。试着用 Google Trends找出 Cassandra数据库中发生了什么,或者Python 语言
18、发生了什么,你就明白了。 Google索引了许多关于蛇的网站。消除歧义并不是个简单的活儿,但像 Natural Language Toolkit 这样的工具可以让它稍微简单些。 当自然语言处理失败,你可以用人工智能取代人本智能。这就要提到 Amazon的 Mechanical Turk服务了。如果你能将你的任务分成许多容易描述的子任务,你就可以用 Mechanical Turk当廉价劳力。比如,如果你正寻找招工清单,并且想知道哪些是 Apple的,你可以以0.01刀的价格雇人来做分类,如果你已经将帖子范围缩小到 10000 个有 “Apple”的,雇人分类可是要花上 100刀。 什么是数据科学
19、?( 3):与数据为舞 Posted On 星期四 , 20 一 2011 By admin. Under Knowledge Tags: Data Science, Google, Hadoop, R, Statistics, Translation 原文链接: http:/ 本系列共分为 4部分 第一部分: 什么是数据科学? 第二部分: 数据之源 与数据为舞 我们都听说过 “大数据 ”,但 “大 ”这个词容易让人只看到表象而忽略本质。石油公司,电信公司,和其他以数据为中心的产业都已经拥有超大规模数据集合很多年了。鉴于存储能力的不断扩展,现在的 “大 ”会是明天的 “中 ”,下一周的 “小
20、”。我听过最有意义的定义是: “大数据 ”只有在数据规模成为问题的时候才成为问题( “big data” is when the size of the data itself becomes part of the problem)。我们正在讨论的数据从 GB到 PB级,某种意义上,传统与数据打交道的技术已经无力回天。 我们要用这些不寻常的数据做什么?根据 Jeff Hammerbacher 2(hackingdata)的说法,我们试图构建信息平台或数据空间。信息平台与传统数据仓库类似,但有所不同。它们暴露出更为丰富的 API,并为探索和理解数据而设计,而不是为传统的分析与报表。它们接受任何
21、数据格式,包括最混乱的,而它们的模式进化到可以理解数据的变化。 绝大多数已经构建数据平台的企业,发现超越传统关系数据模型是个必然。传统关系型数据库在这种规模下不再 高效。管理碎片、跨数据库服务器集群的复制变得困难而缓慢。 “事先定义好模式 ”的需要与多且非结构化的数据源相冲突。可能要到了你真正分析的时候才知道哪些有用哪些没用。关系型数据库为数据一致性,复杂的事件处理,并能在操作失败后迅速回滚而设计。而坚如磐石的数据一致性是许多应用的关键,这对于我们现在讨论的这种分析来说并非必要(译者表示怀疑)。你真的在乎自己在 twitter到底是有 1010个 fo还是 1012个 fo? 精度确有吸引力,
22、但对于绝大多数非财务类数据驱动应用来说,这种吸引力可以忽略。绝大多数数据分析是来做比较:如 果你问北欧的销售增长是不是比南欧要快,你就不会在意是快了 5.92%的年增长,还是 5.93%。 为高效存储大数据集,我们已经看到新品种数据库的出现。它们通常被称作 NoSQL数据库,或者 Non-Relational数据库,尽管两种术语都适用。它们通过告诉你自己不是什么,来将两个本身不类似的东西组合在一起。许多这种类型的数据库在逻辑上是 Googles BigTable 和 AmazonsDynamo的后代,为分布式部署而设计,提供了 “最终一致性 ”而非 “绝对一致性 ”( ”eventual co
23、nsistency” but not absolute consistency),并且有非常灵活的模式。有许多这种产品(几乎全部都是开源的),提两个领先的: Cassandra: 由 Facebook开发,在 Twitter, Rackspace, Reddit 和其他大型网站中作为生产数据库。 Cassandra为高性能、高可靠性和自动复制而设计。它有着非常灵活的数据模型。一个新兴公司 Riptano对它提供商业支持。 HBase: Apache Hadoop 项目的一部分,以 Googles BigTable为模型。适合超大规模数据集(十亿行,百万列),分布在上千节点。与 Hadoop一起
24、由 Cloudera提供商业支持。 存储数据仅仅是构建数据平台的一部分。数据只在你用它的时候才体现出价值,而庞大的数据集会出现计算问题。 Google通过 MapReduce的方式(基本上就是通过分而治之的策略将大问题 通过大集群逐层分布)来做计算。在 “map”阶段,一个任务被分为一系列唯一的子任务,这些子任务会分布到许多处理器;中间结果由 “reduce”合并。在事后, MapReduce看上去就是解决 Google最大问题 大规模搜索 的途径了。将一个搜索分布到成千上万的处理器,并将结果合并构成答案是很容易的。而 MapReduce的另一个不那么明显的用途就是,它已被证明是可以广泛应用于
25、从搜索到机器学习的许多大规模数据问题中的。 实现 MapReduce的最流行开源产品就是 Hadoop项目。 Yahoo声称自己已经构建了世界上最大的 Hadoop应用生产环境( worlds largest production Hadoop application),有 10000个 Linux核,(这件事)将( Hadoop)推向舞台。许多 Hadoop开发 人员发现了 Cloudera,该公司提供商业支持。 Amazon的 Elastic MapReduce让 Hadoop的工作更加便捷,它通过为 EC2集群预设 Hadoop镜像,使你无需关注底层 Linux机器的架构。你可以按需分配
26、处理器,按时付费。 Hadoop远不止是个简单的 MapReduce实现(对它的实现有 N多);它是数据平台的关键部件。它与以下产品结合: HDFS,一种为高性能和高可靠性大规模数据集合所设计的分布式文件系统; HBase数据库; Hive,为开发人员提供对 Hadoop 数据集的类 SQL查询能力;Pig,一种高层数据流语言;还有其他组件。如果有哪个信息平台可称为 “一站式 ”, Hadoop就是。 Hadoop是让数据分析敏捷起来的武器。在软件开发中, “敏捷实践 ”与更快的产品周期,开发人员与客户更紧密的沟通,测试驱动等息息相关。传统数据分析已经被过久的相应周期所阻碍。如果你开始一个计算
27、,可能需要几个小时甚至几天。但 Hadoop(特别是 Elastic MapReduce)让构建针对大数据集的计算集群变得容易。更快的计算使之可以用来做不同的尝 试,不同的数据集,不同的算法。这样可以更好的向客户咨询找出什么是他们真正问的问题,你可以去追求那些曾经可能因为时间紧缺而放弃的有趣尝试。 Hadoop实际上是个批处理系统,但 Hadoop Online Prototype (HOP)是一个针对流处理( stream processing)的实验性质的项目。 Hadoop处理那些到来的数据,并将中间结果(接近)即时的发布。接近即时的数据分析造就了像 Twitter的 trending
28、topics这样的特性。这种特性只要求软即时( soft real-time);依据 trending topic的报表不需要精确到毫秒级别。就像 Twitter上的 fo数,一个 “trending topic”报告只需要当前五分钟或半小时就可以了。根据 Hilary Mason (hmason), bit.ly的数据科学家的说法,预先做出很多计算是可能的,然后在实时 MapReduce中应用其中的一个结果呈现出来。 机器学习是数据科学另一个有力工具。我们现在期望 web和移动应用纳入推荐引擎( recommendation engine),而构建推荐引擎是个典型的人工智能问题。你不用通过那
29、些现代网络应用来看分类、错误处理、镜像匹配( Google Goggles和 SnapTell背后的功能)、甚至面部识别 一个移动应用程序是你可以拍下周围的人并通过网络上的照片搜寻此人。 Andrew Ng 的机器学习课程 是斯坦福大学最流行的计算机科学课程之一,有上百学生在此学习 (推 荐这个视频 )。 有很多可用的机器学习库: Python 的 PyBrain, Java的 Elefant和 Weka,与 Hadoop 融合的 Mahout。 Google刚刚发布他们的 Prediction API,公布了他们的机器学习算法。对于计算机视觉( computer vision), OpenC
30、V 是目前的事实标准。 Mechanical Turk 也是工具箱中的一员。机器学习过程几乎都需要 “训练集合( training set) ”,或者一个明确已知的数据可供开发和调试。 Turk是开发训练集合的极佳方式。一旦你搜集到了备训数据(也许时 Twitter上的大量公共照片),你可以让人来进行分类 将它们排序到各个类别,在脸上、车上画线,或者做点儿别的。低价将大量数据分类是很好的方式,甚至相关工作也只需花费几百刀。 我不相对传统统计学施压,在任何数据分析中构建统计模型都是极其重要的。根据 Mike Driscoll (dataspora)的说法,统计学是 “数据科学的语法 ”( gra
31、mmar of data science) “让数据表达连贯( making data speak coherently) ”是其关键。我们都听过吃泡菜致死的笑花,因为每个人死前都吃过泡菜。如果你不知道它相关的意思,那这笑话就不好笑了。(译者很囧 原文如下,考据帝可以搜搜这笑话。 Weve all heard the joke that eating pickles causes death, because everyone who dies has eaten pickles.)。更重要的是,一个 R in a Nutshell 的广告会比其他多产生 2%的转变。但需要通过统计学来明确这种
32、转变是否明显,或者只是一个偶然。数据科学并不仅限于已有数据,或者猜测数据的意思; 它是在测试假说,并确认你从数据中发现的推论是否有效。统计学在传统的商务智能中占有一席之地,它是用来理解如 Google的广告拍卖如何工作这种问题的。统计学是基础,它不会被新兴技术取代,它使得这些技术更为完善。 有很多商业版统计类工具,也有开源的 R语言 以及它全面的库, CRAN 这是必不可少的工具。尽管 R是一种古怪的语言,但对那些有计 算机背景的人,它提供了方便的统计功能。 它有着出色的图形显示能力; CRAN包含了对多种数据的解析器;新的 R语言扩展使之能够做分布式计算。如果有个单一工具提供端到端统计学工作
33、解决方案,那就是 R语言。 什么是数据科学?( 4/完):让数据说话,做数据科学家 Posted On 星期五 , 21 一 2011 By admin. Under Knowledge Tags: Data Science, Translation 原文链接: http:/ 本系列共分为 4部分 第一部分: 什么是数据科学? 第二部分: 数据之源 第三部分: 与数据为舞 让数据说话 一张图片也许能,也许不能代表千言万语,但一张图片一定会抵得上很多数字。绝大多数数据分析算法的问题是它们生成了一堆数字。为了理解这些数字到底什么意思,说明了什么,你需 要生成图形。 Edward Tufte的 Vi
34、sual Display of Quantitative Information 一书是经典的数据可视化,并且是实践数据科学的基础教材。但这并不是我们真正要关注的。可视化在数据科学的每个步骤都很关键。根据 Martin Wattenberg (wattenberg, Flowing Media的创始人 )的说法,可视化是数据调试的关键:如果你想了解自己的数据有多烂,试着把它绘制出来。可视化通常也是数据分析的第一步。 Hilary Mason 说当给她一个新数据集合时,她会先去绘制一组或多组散点图,以对那些可能感兴趣的东西获得第一印象。一旦你得到一点 “数据可能是这个意思 ”的提示 ,你就能以此
35、为突破口做更多分析了。 有很多可用来绘图、展示数据的工具。 GnuPloti就非常有效; R已经集成了全面的图形工具; Casey Reas和 Ben Fry的 Processing 简直就是艺术品,尤其是当你需要制作时变数据的动画时。 IBM的 Many Eyes则是一种实现多种可视化图像的交互式应用。 Nathan Yau 的博客 FlowingData 是寻找有创意的可视化图形的好地方。其中我最爱的之一就是关于 沃尔玛成长变化的动画 了。而 这里就是 “艺术 ”的地方:并不仅是可视化本身之美,而是它能明确的让你理解其含义。这看起来像不像在人体扩散的癌细胞?或者人群中扩散开的流感病毒?让数
36、据说话,并不只是展示结果;它涉及到运用上下文连接,并回到数据源验证。一个成功的零售连锁商店,其扩散的感觉像不像病毒?如果是,这能不能让我们获得其经济模式的新洞察力?这在几年前就是我们可能不会那么问。(因为)受限于计算机能力的不足,数据曾被锁死在其享有的源中,而处理它们的工具也不够给力。而现在,这就是我们经常提出的问题了。 数据科学家 数据科学要求的技能,从传统的计算 机技术,到数学,乃至艺术。 Jeff Hammerbacher在Facebook上的数据科学小组(可能是第一个在面向消费者的网站上建的数据科学小组)中,对其描述是: 在任何一天,组员都能用 Python 写个多级处理管道,设计一个
37、假说测试,用 R语言在数据样本上做回归分析,为某个数据密集型产品或 Hadoop服务设计并实施一个算法,或者与小组中的其他成员交流分析结果 3 在哪能找到那么多才多艺的人?按 JD Patil( LinkedIn(dpatil) 的首席科学家)的说法,最好的数据科学家更像是 “纯科学家 ”,尤其是物理学家,而不是 来自计算机科学专业的。物理学家有很强的数学功底,计算机技术,并且是来自非常需要数据的学科。他们要去宏观思考,想那些大问题。当你花了很多钱来生成数据,即使它不像你要的那么干净,你也不会就轻易抛弃这些数据。你要通过自己的手段让数据说话。当数据体现的并非你觉得它就是这样的时候,你要有创造力
38、让它讲出实质。 科学家也知道如何对大问题分而治之。 Patil描述了在 LinkedIn添加 “群组推荐 ”功能的过程。假如当初把这个特性作为需要上千小时开发时间、以及花费上千小时来计算 LinkedIn 会员相关性的高优先级项目可能更好些 。但实际却大不相同:它是从一个很小很简单的方案开始,该方案是通过会员资料来做出推荐。这个方案涉及的问题可能类似于 “你去过 Cornell么? ”,然后你也许有兴趣加入 Cornell Alumni组。很快这个方案就迅速扩大。除了会员资料,数据科学家们还要关注会员参加的活动,之后是会员的个人图书馆中的书。(扩大的)结果成就了一个针对大数据库分析的很有价值的
39、数据产品 但没人那么设想过。最初是很小的,之后迭代式添加新的价值。它是敏捷、灵活的流程,一步步增量地走向目标,而不是一次性搬走一座庞然大物。 这是 Patil所说 的 “数据柔术( Data jiujitsu) ”的核心 四两破千金(原文: using smaller auxiliary problems to solve a large, difficult problem that appears intractable)。 CDDB是数据柔术的一个范例:通过直接分析音频流来定义数据是困难的(并非不可行,举例来说,参考 midomi)。但 CDDB 用创造性的方式解决了棘手的问题,结果是一样的。即根据 音轨长度计算签名,在数据库查询签名,就那么简单。 Hiring trends for data science 想找个称心如意的数据科学方面的工作并不容易。然而,从 OReilly Research的调查显示,在 Hadoop 和 Cassandra 方面的职位逐年增长,这是 “数据科学 ”领域的缩影。这张图片显示了 Cassandra 相关工作和公司再近年的增长情况。