需求高涨的数据科学家.DOC
《需求高涨的数据科学家.DOC》由会员分享,可在线阅读,更多相关《需求高涨的数据科学家.DOC(8页珍藏版)》请在温州文客信息科技有限公司上搜索。
1、需求高涨的数据科学家从技术方面来看,硬盘价格下降,NoSQL 数据库等技术的出现,使得和过去相比,大量数据能够以廉价高效的方式进行存储。此外,像 Hadoop 这样能够在通用性服务器上工作的分布式处理技术的出现,也使得对庞大的非结构化数据进行统计处理的工作比以往更快速且更廉价。然而,就算所拥有的工具再完美,它本身是不可能让数据产生价值的。接下来我们还需要能够运用这些工具的人才,他们能够从堆积如山的大量数据中找到金矿,并将数据的价值以易懂的形式传达给决策者,最终得以在业务上实现。具备这些技能的人才,就是在大数据浪潮如火如荼的美国目前正千金难求的“数据科学家”。对数据科学家的关注,源于大家逐步认识
2、到,Google、Amazon 、Facebook 等公司成功的背后,存在着这样的一批专业人才。这些 Web 公司对于大量数据不仅仅是进行存储而已,而是将其变为有价值的金矿 例如,搜索结果、定向广告、准确的商品推荐、可能认识的好友列表等。数据科学(data science)是一个很久之前就存在的词汇,但数据科学家(data scientist)却是几年前突然出现的一个新词。关于这个词的起源说法不一,其中在数据之美(Beautiful Data,Toby Segaran、Jeff Hammerbacher 编著,OReilly 出版 )一书中,对于Facebook 的数据科学家,有如下叙述。“在
3、 Facebook,我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:在任意给定的一天,团队的一个成员可以用 Python 实现一个多阶段的处理管道流、设计假设检验、用工具 R 在数据样本上执行回归测试、在 Hadoop 上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了数据科学家 这种角色。 ”仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后10年 IT 行业最重要的人才” 了。Goog
4、le 首席经济学家,加州大学伯克利分校教授哈尔范里安(Hal Varian,1947)先生,在2008年10月与麦肯锡总监 James Manyika 先生的对话中,曾经讲过下面一段话(中文版节选自麦肯锡季刊官方中文稿) 。 “我总是说,在未来10年里,最有意思的工作将是统计学家。人们都认为我在开玩笑。但是,过去谁能想到电脑工程师会成为上世纪90年代最有趣的工作?在未来10年里,获取数据 以便能理解它、处理它、从中提取价值、使其形象化、传送它 的能力将成为一种极其重要的技能,不仅在专业层面上是这样,而且在教育层面(包括对中小学生、高中生和大学生的教育)也是如此。由于如今我们已真正拥有实质上免费
5、的和无所不在的数据,因此,与此互补的稀缺要素是理解这些数据并从中提取价值的能力。 ”范里安教授在当初的对话中使用的是“statisticians”(统计学家)一词,虽然当时他没有使用“数据科学家” 这个词,但这里所指的,正是现在我们所讨论的数据科学家。数据科学家所需的技能数据科学家这一职业并没有固定的定义,但大体上指的是这样的人才。“所谓数据科学家,是指运用统计分析、机器学习、分布式处理等技术,从大量数据中提取出对业务有意义的信息,以易懂的形式传达给决策者,并创造出新的数据运用服务的人才。”数据科学家所需的技能如下。(1) 计算机科学一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背
6、景。简单来说,就是对处理大数据所必需的 Hadoop、Mahout 等大规模并行处理技术与机器学习相关的技能。(2) 数学、统计、数据挖掘等除了数学、统计方面的素养之外,还需要具备使用 SPSS、SAS 等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境“R”最近备受瞩目。R 的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为 CRAN(The Comprehensive R Archive Network)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。(3) 数据可
7、视化(Visualization )信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发 Web 原型,使用外部 API 将图表、地图、Dashboard 等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。作为参考,下面节选了 Facebook 和 Twitter 的数据科学家招聘启事。对于现实中的企业需要怎样的技能,应该可以为大家提供一些更实际的体会。Facebook 对数据科学家的招聘信息Facebook 计划为数据科学团队招聘数据科学家。应聘该岗位的人,将担任软件工程师、量化研究员的工作。理想的候选人应对在线社交网络的
8、研究有浓厚兴趣,能够找出创造最佳产品过程中所遇到的课题,并对解决这些课题拥有热情。职务内容 确定重要的产品课题,并与产品工程团队密切合作寻求解决方案 通过对数据运用合适的统计技术来解决课题 将结论传达给产品经理和工程师 推进新数据的收集以及对现有数据源的改良 对产品的实验结果进行分析和解读 找到测量、实验的最佳实践方法,传达给产品工程团队必要条件 相关技术领域的硕士或博士学位,或者具备 4年以上相关工作经验 对使用定量手段解决分析性课题拥有丰富的经验 能够轻松操作和分析来自各方的、复杂且大量的多维数据 对实证性研究以及解决数据相关的难题拥有极大的热情 能对各种精度级别的结果采用灵活的分析手段
9、具备以实际、准确且可行的方法传达复杂定量分析的能力 至少熟练掌握一种脚本语言,如 Python、PHP 等 精通关系型数据库和 SQL 对 R、MATLAB、SAS 等分析工具具备专业知识 具备处理大量数据集的经验,以及使用 MapReduce、Hadoop、Hive 等分布式计算工具的经验来源:Facebook(中文翻译出自译者)Twitter 对数据科学家(负责增加用户数量)的招聘信息关于业务内容Twitter 计划招聘能够为增加 Twitter 用户数提供信息和方向性,具备行动力和高超技能的人才。应聘者需要具备统计和建模方面的专业背景,以及大规模数据集处理方面的丰富经验。 我们期待应聘者
10、所具有的判断力能够在多个层面上决定 Twitter 产品群的方向性。职责 使用 Hadoop、Pig 编写 MapReduce 格式的数据分析 能够针对临时数据挖掘流程和标准数据挖掘流程编写复杂的 SQL 查询 能够使用 SQL、Pig 、脚本语言、统计软件包编写代码 以口头及书面形式对分析结果进行总结并做出报告 每天对数 TB 规模、10亿条以上事务级别的大规模结构化及非结构化数据进行处理必要条件 计算机科学、数学、统计学的硕士学位或者同等的经验 2年以上数据分析经验 大规模数据集及 Hadoop 等 MapReduce 架构方面的经验 脚本语言及正则表达式等方面的经验 对离散数学、统计、概
11、率方面的兴趣 将业务需求映射到工程系统方面的经验来源:Twitter(中文翻译出自译者)数据科学家所需的素质这一节的内容与技能部分有所重叠,数据科学家所需要具备的素质有以下这些。(1) 沟通能力即便从大数据中得到了有用的信息,但如果无法将其在业务上实现的话,其价值就会大打折扣。为此,面对缺乏数据分析知识的业务部门员工以及经营管理层,将数据分析的结果有效传达给他们的能力是非常重要的。(2) 创业精神(entrepreneuership)以世界上尚不存在的数据为中心创造新型服务的创业精神,也是数据科学家所必需的一个重要素质。Google、Amazon、Facebook 等通过数据催生出新型服务的企
12、业,都是通过对庞大的数据到底能创造出怎样的服务进行艰苦的探索才获得成功的。(3) 好奇心庞大的数据背后到底隐藏着什么,要找出答案需要很强的好奇心。除此之外,成功的数据科学家都有一个共同点,即并非局限于艺术、技术、医疗、自然科学等特定领域,而是对各个领域都拥有旺盛的好奇心。通过对不同领域数据的整合和分析,就有可能发现以前从未发现过的有价值的观点。美国的数据科学家大多拥有丰富的从业经历,如实验物理学家、计算机化学家、海洋学家,甚至是神经外科医生等等。也许有人认为这是人才流动性高的美国所特有的现象,但其实正如我们在第4章中所介绍的 GREE 一样,在日本也出现了一些积极招募不同职业背景人才的企业,这
13、样的局面距离我们已经不再遥远。严重的人才匮乏数据科学家需要具备广泛的技能和素质,因此预计这一职位将会陷入供不应求的状态,即遇到人手不足的困境。例如,麦肯锡全球研究院(MGI)在 2011年5月发表的题为“Big data: The next frontier for innovation, competition and productivity”(大数据:未来创新、竞争、生产力的指向标)的报告中指出,在美国具备高度分析技能的人才(大学及研究生院中学习统计和机器学习专业的学生)供给量,2008年为15万人,预计到2018年将翻一番,达到30万人。然而,预计届时对这类人才的需求将超过供给,达到4
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 文钱
下载 | 加入VIP,畅享折扣下载 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 需求 高涨 数据 科学家
![提示](https://www.wenke99.com/images/bang_tan.gif)
链接地址:https://www.wenke99.com/p-614648.html