1、大数据及其相关新兴技术 Big Data and Its Related Emerging Technologies,2014年8月,陈国良深圳大学计算机与软件学院,Version 1: 07/2013.Version 8: 08/2014,2,摘要: 大数据、物联网和云计算是新一代信息技术发展中的华彩乐章。物联网使成千上万的网络传感器嵌入到现实世界中,云计算为物联网产生的海量数据提供了存储空间和在线处理,而大数据则让海量数据产生了价值。本报告,首先介绍大数据世界和大数据潮流;其次讲解什么是大数据和大数据的一般处理流程;接着介绍产生大数据来源之一的物联网的产生、发展及其系统架构;然后讲述大数据
2、与云计算的关系和两者的异同点;最后在简介高性能计算与高性能计算机的基础上,阐述了在大数据面前高性能计算本身所面临的技术挑战等。,目 录,3,大数据浪潮汹涌澎湃1.1 大数据世界1.2 大数据潮流1.3 什么是大数据1.4 变革思维研究大数据1.5 大数据的价值1.6 大数据的管理1.7 大数据时代的产业界情况大数据引领社会、经济和科技发展2.1 大数据对国家社会的作用2.2 大数据推动国民经济发展2.3 大数据促进科技发展2.4 大数据应用及实例大数据的处理流程3.1 大数据的采集与预处理3.2 大数据的传输3.3 大数据的存储3.4 大数据的处理3.5 大数据的展现大数据与物联网4.1 物联
3、网4.2 物联网的发展历程4.3 大数据与物联网大数据与云计算5.1 什么是云计算5.2 大数据与云计算的关系5.3 大数据与云计算的不同点高性能计算与高性能计算机6.1 什么是高性能计算6.2 高性能计算机系统举例6.3 高性能计算应用高性能计算面临大数据的挑战7.1 计算模型的转变7.2 系统结构的转变7.3 编程模型的转变7.4 应用方式的转变7.5 其他方面的转变结论8.1 从量变到质变8.2 各领风骚十数年,1、大数据浪潮汹涌澎湃,1.1 大数据世界网络连接的世界涌现出大数据互联网和社交网产生的数据:现代网络社会中,人们在通过电子邮件、维基、微博、博客、娱乐节目、网上购物、银行交易、
4、股票数据等进行互动和交易,每个人在分享网上数据的同时,又在不断制造数据。无线移动互联网络产生的数据:移动智能终端接入互联网就形成了移动互联网,它虽兼具了通信网之“随时、随地、随身”和互联网之“共享、开放、交互”的优势,但仍面临着海量数据通信对网络带宽带来的巨大负担;而移动互联网的无线接入网络使得数据流量剧增,迫使网络运营商不断增加基站数和进一步挖掘频谱利用率;网络应用和服务的多元化使得传统的微观小尺度(分组级和数据帧级)的业务规律分析无法从宏观上描述业务特征规律。物联网上采集和观测数据:在遍布全球各地的移动传感器、无线传感器、空间遥感器、射频识读器和摄像、照相机等各种采集和观测数据设备,都在时
5、时、处处捕获大量诸如位置数据、传感数据、卫星图像数据、气象数据等。社会发布的信息数据:现代社会中,政府、企事业、行业等机关部门都不断地向社会发布政务信息、公共服务信息、卫生保健信息、社会保险信息、科技教育信息、安全预警信息、金融服务信息、证据投资信息等数据。,4,1、大数据浪潮汹涌澎湃,大科学工程产生了大数据*大型强子碰撞(LHC:Large Hadron Collider)试验:美国大数据研究计划中专门列出寻找希格斯粒子(被称为“上帝粒子”)的LHC实验。据说至少要1万亿个事例中才可能找出一个希格斯粒子。在发生碰撞时,LHC检测器(Detector)在一秒钟内能捕获到其临近0.4亿(40 m
6、illion)个快照。当LHC试验时,约有1.5亿个传感器(Sensor)每秒传递数据0.4亿次,大约每秒近6.0亿碰撞。如果所有的传感器数据均记录在LHC中,则在重复之前每天将近有500EB(E=1018)数据流量,几乎是世界上所有其他资源的200倍。*希格斯粒子以2013年诺贝尔奖获主之一现年84岁的英国科学家彼得希格斯命名。他在1964年曾预言玻色子粒子的存在。时隔50年之后,被总部设在瑞士日内瓦的欧洲核子研究中心LHC实验项目所证实。因为诺贝尔奖至多3人分享,所以欧洲核子研究中心参与发现这种粒子的数以千计的研究人员就成了无名英雄了。*参与“上帝粒子”项目的28岁小伙子,计昊爽,合肥庐江
7、人,毕业于中国科学技术大学,后去美国威斯康辛大学读博士。他是欧洲核子研究组织(CERN)团队成员,他在计算和实验证明出“上帝粒子”存在功不可没。他首次计算得到了5倍西格玛(Sigma)的显著度,有99.9999%的可信度表明了该粒子的存在。这在科学界被认为已经证明了上帝粒子的存在。斯隆数字天空勘探(SDSS:Sloan Digital Sky Survey)计划:从2008年开始收集天文数据,并且每晚以200GB的速率继续收集,到2012年,SDSS已积累了超过140TB的信息。基因测序:2013年全球至少有30万个人类个体基因组被全部或部分测序,这就意味着将会产生30Pb的序列数据,至少需要
8、相当150PB的存储和分析计算能力。,5,1、大数据浪潮汹涌澎湃,新技术新应用催生的大数据新技术:传感技术、新型通信技术、物联网技术等高速发展,让人们感知的东西很多;人与人、人与机器、机器与机器时刻都在互联互动;新的获取、搜索、发现和分析工具更使人们获得更丰富的数据。新应用:物联网(使成千上万的网络传感器嵌入到现实世界中)和云计算(为海量数据提供了存储空间和在线处理)等新型应用更使得数据激增。大数据发展的主要推动力大数据推动者是企业界:企业界的经济效益推动了大数据的发展。IBM、Oracle、微软、谷歌、亚马逊、Facebook等跨国巨头是大数据处理技术的主要推动者。OReilly公司断言:数
9、据是下一个“Intel Inside”,未来属于将数据转换成产品的公司和人们。大数据主要消费者是网民:近年来大数据骤增主要还是来自人们的日常生活(图片、视频、音乐等),特别是互联网公司的服务。传感网和物联网等相关技术催生了大数据的蓬勃发展。,6,1、大数据浪潮汹涌澎湃,1.2 大数据潮流大数据时代大数据的价值21世纪数据的价值有可能等同于20世纪的石油,但石油资源会不断耗尽,而数据会随应用不断增长,呈“无限增长”的趋势。信息经济早期,数据只作为一种“资源”;后来人们逐渐把它视为一种“资产”;而现今数据却成了一种“能力”,是企业的核心竞争力。大数据成了国际业界热门话题21世纪是个数据为王的时代,
10、每个人都必须“用数据说话”,谁拥有了数据,谁就有了话语权。大数据是继云计算、物联网之后的IT界又一次颠覆性技术变革。2012年世界经济论坛发布了“Big Data, Big Impact”的报告,阐述了大数据对农业、金融、医疗、健康、教育等发展带来了新机遇。,7,1、大数据浪潮汹涌澎湃,大数据研究计划美国“大数据研发创新”计划计划概况:2012年3月,美国Obama政府宣布了“Big Data Research and Development Initiative”计划,探讨如何利用大数据分析来应对政府所面临的一些重大问题。该计划由跨6个部门的84个大数据项目组成,总投资共$200millio
11、n(2亿美元)。计划目的:通过抽取知识和洞察大而复杂的数据,改进工作能力;通过创新,加速科学和工程发现的步伐;增强国家安全和改观国民教育现状与面貌等。计划落实实施:除了投放2亿美元资金外,政府希望工业界、大学、非盈利企事业单位加入联邦政府,利用大数据所提供的机遇。总统号召:“all hands on deck”(各就各位,全体出场),共同努力。在此形势下,美国有些公司已为大学提供大数据方面的研究项目与资金;大学已开设大数据的课程,为培养下一代“数据科学家”做准备等。日本“新ICT战略研究”计划计划发起:2012年7月日本推出“新ICT战略研究计划”,在新一轮IT振兴计划中日本政府把大数据发展作
12、为国家层面战略提出。这是日本新启动的2011年大地震一度搁置的政府ICT战略研究。计划关注点:所推出的新的综合战略“活力ICT日本”,“提升日本竞争力,大数据应用不可缺少”,重点在大数据的应用所需的云计算、传感器、社会化媒体等智能技术开发,大数据将为新医疗技术开发、交通拥堵的缓解等带来方便和贡献。,8,1、大数据浪潮汹涌澎湃,英国“聚焦大数据和节能计算”计划做好准备:英国认为自己为大数据革命做好了准备,英国把大数据看作是自己的优势,政府加大对大数据等IT技术的投入,并带动企业对该领域的投资。资金投入:英国政府宣称投资6亿英镑科学资金,并计划在未来两年内在大数据和节能计算研究投资1.89亿英镑。
13、政府把大量的资金投入到计算基础设施,用以捕捉并分析通过开放式数据革命获得的数据流,带动企业投入更多的资金。我国大数据论坛及研究计划在2013年:中国计算机学会率先于2013年成立“大数据专业委员会”,李国杰院士任主任。在20112014年:2013年3月国家自然基金委在上海举行规模浩大的“大数据双清论坛”。中国分别举办了第一届(2011年)和第二届(2012年)“大数据世界论坛”。IT时代周刊等举办了“大数据2012论坛”,中国计算机学会举办了“CNCC2012大数据论坛”。国家自然科学基金委,2014年立项重点和重大项目“大数据技术和应用中的挑战性科学问题”研究,拟从10个方向中选择资助8个
14、重点项目。国家科技部,863计划信息技术领域2015年备选项目包括超级计算机、大数据、云计算、信息安全、第五代移动通信系统(5G)等。,9,1、大数据浪潮汹涌澎湃,Gartner预测大数据的发展周期2011年:大数据进入技术导入期(Trigger),呈上升发展趋势;同时大数据预测分析等相关技术已较为成熟,而云计算、内存数据库管理和社会分析等也处于期望膨胀期(Inflated Expectation)。2012年:大数据已进入井喷期(Inflated),处于接近高峰期,同时大数据相关预测分析、云计算、内存数据库管理、社会分析等技术已逐步发展且趋于成熟。,10,导入 上胀 低落 回升 稳定,1、大
15、数据浪潮汹涌澎湃,2013年:大数据带动了数据科学的研究热潮和相关使能技术的兴起。,11,1、大数据浪潮汹涌澎湃,1.3 什么是大数据认识大数据大数据一般来源于网络用户、网络应用、智能终端、政府、企业和个人,所以大数据包含了互动数据、交易数据和观测数据等。所谓大数据(Big Data)就是指用目前常用的软件工具无法在容许的时间(可接受的时间)内进行获取、存储、管理和分析等的数据集(Data sets)。数据之所以称为大数据,首先是因为其量大(Large Quantity),而量大对不同的领域的界定也不同;目前,大数据一般典型范围为几十TB(T=1012)到PB(PB=1015),将来会更大。大
16、数据的4V定义大数据可按其大容量、快速率、多样性和高价值等4个“V”进行定义如下:Volume(Amount of Data):大容量(主要体现数据存储量大和计算量大)Velocity(Speed of Data in & out ):快速率(主要指数据更新、增长速度快,数据存储、传输、处理速度快)Variety(Range of Data Types & Sources):多样性(包括结构化的原数据库表格数据和半结构化、非结构化的文本、视频、图像等信息)Value(Usefulness of Data):高价值(大海捞针,“在大数据困难面前,不被利用就是成本”),12,1、大数据浪潮汹涌澎湃
17、,处理大数据的基本原理数据量的巨大(本身也包含着数据大小变化范围大)使得数据无法集中存储和必须使用并行与分布计算技术。数据的快速,使得数据到达速率快和输出结果快,这就需要实时处理和快速决策。数据的多样性,数据结构化、非结构化、半结构化甚至不可预知的结构使得数据难以统一表达、处理系统极其复杂。大数据的价值弥足珍贵,但大数据的价值密度低,在浩瀚的大数据海洋中,如何挖掘有用的东西,似如“大海捞针”!利用好大数据的价值并非易事!大数据的研究大体上包含数据获取、存储、传输、分析、管理与应用等诸多方面,显然涉及到物理、材料、电子、计算机、通信、数学、统计、信息管理以及各应用行业,不是单一学科能解决的问题,
18、需要多学科交叉综合研究!大数据的4层技术架构基础层:横向可扩展存储和计算平台;虚拟化、网络化的分布式架构。管理层:并行、分布式管理平台;结构化和非结构化的统一管理。分析层:基于统计学的数据挖掘和机器学习算法;分析和解释数据,提供自动服务。应用层:提供实时决策;内置预测能力。,13,1、大数据浪潮汹涌澎湃,大数据所带来的技术挑战大数据存储与管理:虽然大数据价值稀疏,但保留它还是非常有价值的!解决大数据的存储问题首先是对其进行去重和压缩;其次是降低副本比,提高存储效率和降低存储成本。传统IT系统到大数据系统的过渡:在现有的数据软/硬件平台基础上做渐进式改进;大数据分析要平民化;大数据应用要直观、易
19、用和网络化。大数据分析:需要革命性理论和新算法;不能抽样分析,要全数据聚合分析;以计算为中心转移到以数据为中心;系统架构应分布式和并行化兼顾;将结构化数据的分析方法、工具与新兴的非结构化数据方法、工具相结合;提供数据实时分析能力;云计算是提高大数据分析能力的一种可行方案等。大数据安全:发展信息安全技术;加强技术保护;提高全民信息安全意识;完善信息安全政策和流程;完备信息安全标准等。大数据的兴起催生了数据科学:数据科学可简单理解为预测分析和数据挖掘,是统计分析和机器学习技术的结合,相关方法包括回归分析、关联规则、优化技术和仿真建模。大数据所带来的威胁无处不在的“第三只眼”和大数据的二次利用会使人
20、们惶恐不安,威胁公众的隐私,伤害人类的自由和尊严。运用大数据预测来判断和惩罚人类潜在行为,会给社会和人类带来不公和无法弥补的损伤。数据的质量不高、数据的不客观性、数据分析中的差错等所导致的人们对数据的执迷和崇拜,形成了数据独裁是可怕的,应引以为戒!,14,1、大数据浪潮汹涌澎湃,1.4 变革思维研究大数据数据的获取不能依靠随机采样进行分析,采样无法揭示细节信息,不能期望像小数据时代那样,可用最少的数据获得最多的信息。大数据时代要利用尽可能多的全样数据,收集与某事物相关的所有的数据。数据的分析在大数据时代,分析如此之多的数据,不能热衷于追求精确性,也无法实现精确性。须知,大数据的简单算法比小数据
21、的精确复杂算法会更有效。数据的解释大数据时代,无需紧紧盯着事物之间为什么的因果关系,要侧重寻找事物之间是什么的相关关系。知道“是什么”是大数据从业人员急需的,知道“为什么”可容后让科学家们去分析。数据的处理面对数据纷繁杂乱的局面,要接受处理大数据无理论、无模型的理念与现实。不能避免数据纷繁多样、优劣共存的混杂性,要容忍模糊性和不精确性的处理方法。不建立新模型,没有统一的理论和机械式的证明,科学也可以照样进步。,15,1、大数据浪潮汹涌澎湃,1.5 大数据的价值数据的用途数据的基本用途:数据的分析、处理和使用提供定量可信的科学依据。数据不限于特定用途:数据可以为同一目的而多次重复使用,它也可以用
22、于不同目的。数据的潜在价值数据的再利用:对收集、处理和使用过的数据,存储下来备以后再利用。数据的重组:对数据而言,将多个数据集进行重组总和的价值比单个总和的价值更大。数据的可扩展:将相同数据集设计成可扩展的各种潜在的二次用途。数据的折旧:所收集的数据,做尽可能多的和尽可能长的时间保存,以便再次用于相同或类似的用途。数据的开放:特别是“开放政府数据”,供全民使用,更广泛地服务于社会。大数据的商业价值大数据掌控公司的发展:掌握大数据,多渠道获取拥有大数据,巧妙地挖掘大数据的价值,使数据能优化生产和服务,甚至催生新的行业,便会使公司大放异彩。大数据决定企业的竞争力:大数据是企业的双刃剑因大数据诞生了
23、很多公司,也倒闭破产了很多公司。在激烈的竞争中,所有行业均存在着威胁、挑战、转型与机遇!,16,1、大数据浪潮汹涌澎湃,1.6 大数据的管理隐私保护对大数据的使用进行正规评测和正确引导,将隐私保护的责任从民众转移到数据使用者,让他(她)们对自己的行为负责。设立数据隐私保护模式,将数据的使用权从收集数据进行“个人许可”的拥有者转移到承担责任的数据使用者(他们是数据二级应用的受益者)。公正评判在大数据时代,有了大数据我们可以预测人的行为,这很容易诱使我们依据预测行为进行评判。在大数据时代,在利用“客观”数据进行预测评判时,要考虑个人动因,而个人可以而且应该为他们的实际行为而不是倾向负责。反对数据垄
24、断大亨我们应借鉴当年的铁路和钢铁等强盗大亨,防止他们垄断一切。反对数据垄断大亨,就可以将大数据的不利影响得到控制,相应的法律、法规支持不可缺少。反对对数据的执迷和崇拜所形成的数据独裁!,17,1、大数据浪潮汹涌澎湃,1.7 大数据时代的产业界情况传统IT巨头(IBM、微软、惠普、Oracle等)通过“硬件+软件+数据”整合平台,向用户提供大数据完备的基础设施和服务,实现“处理-存储-网络设备-软件-应用”,即所谓“大数据一体机”。通过并购大数据分析企业,迅速增强大数据分析实力和扩展市场份额。但依赖厂商自身原有技术优势和收购整合不同公司,不能从根本上突破大数据发展的关键核心技术和实现对大数据各个
25、领域的覆盖。商务智能厂商(SAS,Teradata等)长期专注行业(银行、电信等)智能数据分析,技术实力强,产品线丰富,行业业务精。在大数据时代,这些厂商在原有结构化数据处理的同时,开始加大在可扩展计算、内存计算、库内分析、实时流处理和非结构化数据处理等方面的投入。这些厂商凭借在以往数据建模和分析方面的长期积累,虽处于行业领导地位,但面临大数据,它们的诸多产品性能仍跟不上大数据的需求。互联网公司(Google、Facebook、阿里巴巴、百度、腾讯等)这些公司基于自身应用平台、庞大的用户群、海量用户信息以及互联网处理平台,可提供精确营销、个性化推介等商务活动。在大数据时代,催生了大数据分布式处
26、理软件框架Hadoop:包括分布式文件系统HDFS,并行编程框架Map-Reduce,数据仓库工具Hive和大数据分析平台Pig等。国内阿里巴巴推出“淘宝指数”,用于商家指导生产、制定价格和控制库存;百度从数据、工具和应用三个层面规划大数据时代的企业战略;腾讯通过大数据挖掘社会网络中的商业价值等。大数据的“春秋战国”目前,世界上各企业产业界正处于群雄并行的“大数据春秋时期”。可以预计,今后的五至十年,大数据领域将会聚集成若干个核心企业、公司和典型应用的“大数据战国时代”。,18,2、大数据引领社会、经济和科技的发展,2.1 大数据对国家社会的作用增强国家安全通过海量数据挖掘出高价值的军事情报。
27、通过海量数据的分析迅速布置军事行动。通过海量数据处理实现军事决策自动化、精准化和快速化。促进政府开发数据开放:通过数据开放,可为政府决策提供真实数据。世界上不少国家已推出各自国家的公共数据库开放网站,网站数据库公布的数据不受私人或国家部门的限制。基于数据驱动的政府决策:利用“基于实证的事实”可更加有效、更加开放、更加负责地引导政府前进,而不是“意识形态”,也不是利益集团对政府决策施加影响。使用大数据可以提升公共服务的透明度,通过数据模块等形式,辅助公共服务部门更好地发现需求、提升绩效、降低运营开支成本等。提高政策预见性和响应性利用互联网、社交网和手机信息等,对社会舆论、失业率、疾病爆发、天气预
28、报、股票走势等,进行:情绪分析趋势预测分析早期预警,19,2、大数据引领社会、经济和科技的发展,2.2 大数据推动国民经济发展人类社会的三次浪潮给人类社会带来了巨大深刻的影响,极大地推动了人类社会经济的发展农业社会工业社会信息社会大数据是第三次浪潮的华彩乐章,在新一代信息技术发展中:物联网:使成千上万的网络传感器嵌入到现实世界中。云计算:使物联网产生的海量数据提供了存储空间和在线处理变得可能。大数据:则让海量数据产生价值,使数据成为宝贵“资产”。大数据产生大价值大数据所催生的硬件、软件及服务市场产生了巨大的价值。通过大数据推动的相关行业(制造业、医疗业、零售业等)产生巨大的价值。,20,2、大
29、数据引领社会、经济和科技的发展,2.3 大数据促进科技发展科学发现的“第四范型”(The Fourth Paradigm)2007年,图灵奖得主Jim Gray曾在美国国家科学研究会发表演讲,指出:第一范型 - 实验科学:几千年前凭经验描述自然现象。第二范型 - 理论科学:过去几百年靠理论分析(牛顿定律、麦克斯韦方程式等)研究自然规律。第三范型 - 计算科学:过去几十年用计算机仿真模拟复杂现象。第四范型 - 数据密集型科学:基于大规模数据获取、分析、处理的科学发现。大数据引领互联网技术创新大数据的快速率:促使互联网行业推出诸如流式处理、实时计算、内存计算等技术。大数据的大容量:促使互联网公司构
30、造分布式架构,利用大量廉价的服务器与存储器来应付大数据集,并灵活进行弹性部署。大数据的多样性:促使互联网公司采用非关系型数据库技术,不断强化对日益增加的非结构化数据的驾驭能力。,21,2、大数据引领社会、经济和科技的发展,2.4 大数据应用及实例应用场合(Use Cases):政府运作(国家档案管理,人口普查,政府发布的信息)国防安全(军事情报,军事决策,军事行动)社会民生(社会网络,淘宝网,支付宝)健康医疗(疾病档案,流行病传播,远程医疗)商业金融(商业新闻,投资风险,股票走势)地球海洋(地震预报,检测冰川雪崩,风暴潮海啸预报)能源环境(能源挖掘与利用,消耗与再生,能源与环境)大科学工程(大
31、型强子LHC,斯隆数字天空勘探,基因测序)大数据来源网络服务器日志数据(Web Servers Logs)互联网点击流数据(Internet Clickstream Data)社会媒体发布(Social Medial Activity Reports)移动呼叫记录(Mobile-phone Call Records)传感器或IOT设备捕获信息(Information Captured by Sensors or IOD Devices)大数据实例中国互联网数据中心统计:淘宝网同时每天在线商品数已超过8亿件,平均出售4.8万件/分钟。Facebook网站上每天的评论达32亿条,新上传照片3亿张/
32、天。Youtube每天页面浏览数达20亿次,上传15万部电影/周;上传83万部视频/天。新浪微博注册用户超过3亿,用户发布超过1亿条微博/天。大数据有多大?2011年时,全球数据规模约1.8ZB(Z=1021),可以填满575个32GB的ipad,它们如果当砖头使用,可以修建2座中国长城。到2020年,全求数据规模将达40ZB,可以修建45座中国长城。,22,3、大数据处理流程,3.1 大数据的采集与预处理网络采集的大数据互联网上系统日志信息的采集。互联网上非结构化数据的采集。采集数据的观测设备传感器:无线传感器、移动传感器、空间传感器。射频识读器(RFID)。摄像机、照相机等。采集数据的ET
33、L预处理技术数据提取(Extraction):通过接口设备从分布的、异构的数据源中提取数据。数据转换(Transformation):将提取的数据转换成业务需要的目标数据结构并实现汇总。数据加载(Loading):将转换和汇总后的数据加载到目标数据库或相应的文件存储系统中。,23,3、大数据处理流程,3.2 大数据的传输(1) 加速海量数据近实时传输(near-real time delivery)的关键在于研发超高速的交换与传输设备。传输介质宽带接入铜退光进:光纤以石英材质为主,具有绿色和宽带的优势,可进一步提升大数据传输所需要的带宽。有线与无线结合:无线可为基站和终端间构筑泛在网络;有线光
34、纤可为基站和城域间提供高效传输平台。传输设备光电结合:电子属于费米子,电处理在逻辑和缓存等功能上具有优势;光子属于玻色子,光处理在高速并行传输和交叉上具有优势,所以两者结合有可能应对大容量节点交换的需求。传输与交换相结合:使用光联网可将单纯的传输功能集成到节点设备中去,利于网络规划和运维。传输协议多复用方式:使用光纤接入可从时分发展到时分、波分和频发等多复用方式。电路与分组相结合:前者利于大粒度数据流;后者利于小粒度数据流,两者结合大大有利于减少功耗和成本。,24,3、大数据处理流程,(2) 数据增长速度超过通信能力的增长,单纯依赖物理层技术的提升无法满足大数据的需求。物理层:超大规模集成电路
35、、高速路由器/交换机、全光网络、4G/5G等等面临着物理极限。网络结构与核心协议:30多年基本没有太大的变化IP设计的初始理念是用户少、设备贵、流量小、应用简单,确立了简单清晰的网络结构;当物联网和社交网的出现和发展,迫使IP网络架构不断“打补丁”,结果弄得“杂乱臃肿”。存在的问题:不能充分利用带宽而效率低;难以有效支持多径路由而不灵活;无法进行统一的流量管理。,25,3、大数据处理流程,(3) 软件定义网络(Software Defined Network,SDN,由斯坦福大学提出)是解决大数据传输的有效方法。SDN的核心思想:其核心技术OpenFlow将网络设备控制面(Control Pl
36、ane)与数据传输面(Forwarding and Data Plane)分离开来。控制面:决定网络设备中路由表的内容,即路由算法。数据面:决定网络设备如何对数据包进行转发,即转发表本身。SDN的意义:可实现网络流量的灵活控制路由算法可以运行在与网络设备独立的节点上(SDN控制器),以实现集中式路由算法控制。SDN的优点:可有效利用空闲带宽,提高带宽利用率;可灵活利用多条路径进行数据传输;易于对数据传输进行有效管理。SDN的问题:集中式的SDN控制器存在单节点失效问题和网络可扩展性问题;SDN包含多个物理和逻辑层面,含有大量的异构设备和协议,管理很复杂;这种全新的架构在基础理论、网络协议、路由
37、算法、网络安全等方面有大量亟待解决的问题。,26,3、大数据处理流程,3.3 大数据的存储新型存储技术要研发高密度、低功耗、速度快、非易失的新型存储器件,要研究固态存储阵列和大容量混合存储技术,要研究高性能、大容量、低延迟、高可靠的I/O存储技术。新型存储结构直接连接存储(DAS,Direct-Attached Storage)结构:通过总线适配器将硬盘等存储介质直接连到主机上。大数据从业人员不喜欢慢速昂贵的共享的外存,而希望不同形式的,包括固态硬盘(SSD,Solid State Disk)、埋置在并行处理节点内的高容量SATA(Serial Advanced Technology Atta
38、chment)磁盘等。智能化分布存储结构:大数据不可能集中存储,要构建智能化的分布式存储结构。改变传统“哑存储设备”的观点,可将部分公共数据处理和管理任务下移至存储设备,达到数据就地、就近处理,充分利用存储设备的处理能力,减轻网络传输的压力。,27,3、大数据处理流程,新型存储级内存(SCM,Storage Class Memory):它是将SCM设计成整个存储系统的一部分,而非作为虚拟内存交换区域和外存补充,使得计算不仅仅存在传统的内存Memory上,同时也在SCM存储设备上。大数据分布、容错、列存储通过分布式实时列存储可对数据统一进行结构化存储管理,避免了传统数据存储方式的关联查询。分布式
39、存储主从控制模式:主节点存元数据,且负责接收请求并应答;从节点负责存数据。冗余存储:为可靠起见,文件块被复制到三个不同的存储位置。用列存储代替行存储:将记录按行排序、按列存储,将相同字段数据作为一个列族而聚合存储之。去重和压缩:研究表明,应用数据近75%是副本,原本只占25%,降低副本是提高存储效率的首要因素。,28,3、大数据处理流程,3.4 大数据的处理大数据的管理在线事务处理OLTP(OnLine Transaction Processing)数据加载:将多个OLTP系统通过ETL工具将其中的数据导入到一个或多个数据仓库中,以满足高吞吐量和实时分析的需求。并发查询:NoSQL是对不同于传
40、统关系数据库的数据库管理系统的总称,它不使用SQL作为查询语言(SQL是结构化的查询语言,它接收记录条目集作为输入,输出也是条目集)。区别于传统关系数据库的按行存储,NoSQL支持列存数据库按列存储。在线分析处理OLAP(OnLine Analysis Processing)大规模并行数据库:是无共享数据库,可以有效提高查询效率和平台的可扩展性,主要用在数据仓库和大规模分析处理应用中。分布式大规模批处理(MapReduce):它是一个支持非结构化大数据分析的分布式编程模型。MR来源于函数式编程语言LISP中两个高阶函数Map和Reduce。Map被用来遍历输入数据,并进行划分,再以Key/Va
41、lue对方式输出中间结果;然后这些中间结果按Key的取值聚集到Reducer上执行Reduce操作,产生最终计算结果。,29,3、大数据处理流程,大数据的挖掘定义:从大量、随机的、不完整的、有噪声的、模糊的数据中,提取隐含的事先不知道的,但有潜在应用价值的信息和知识的过程。数据挖掘的一般步骤:数据筛选:从目标数据中提取与分析相关的数据。数据预处理:清除目标数据中的噪声或不一致的数据。数据变换:将已预处理的数据统一成适合挖掘的格式。数据挖掘:从变换后的数据中,使用智能方法提取数据模式。评估与展现:识别真正有用的模式并进行可视化展现。大数据挖掘的几个阶段:数据预处理阶段:包括数据准备,数据提取,数
42、据预处理和数据变换等。数据挖掘阶段:包括确定挖掘目标,选择合适的挖掘算法,从数据库中提取用户感兴趣的知识。数据评估与展示阶段:包括对发现的模式(知识)评估,向用户呈现所挖掘的知识等。新型挖掘技术:大数据的异构性、非确定性、关联性、结构不一致性、稀疏泛分布性、数据流动性、动态变化性等复杂因素需要研究诸如迭代性和探索性分析等新型数据挖掘技术。例如,Hive是在Hadoop之上的,管理和查询结构化数据,可完成PB级数据的挖掘。,30,3、大数据处理流程,大数据的分析大数据的描述分析关联分析(Association Analysis):是从给定的数据中发现频繁出现的模式(关联规则),其形式表达为 X
43、= Y,即“数据库中满足条件的X的记录多半也满足条件Y”。聚类分析(Clustering Analysis):是将数据对象划分成多个类或簇,使之同簇中对象有较高的相似度。离群点分析(Outlier Analysis):分析数据集合中那些与绝大多数数据特性或模型不一致的数据对象(称之为离群点,Outlier)。演化分析(Evolution Analysis):其目的是挖掘随时间变化的数据对象的变化规律和趋势,并对其建模。大数据的实时分析库内分析:数据分析在数据库内可以即时完成,这样既节省时间又提高了安全性。内存计算:在服务器的主存中处理分析数据。流处理:实时处理新数据和更新数据库。连续计算:对数
44、据进行连续查询、边计算边以流的形式输出之。集成多种学习算法:包括人工智能有关的机器学习算法、A/B Test法、分类/聚类算法、学习与演化算法、识别和预测算法、监督与非监督学习算法等。,31,3、大数据处理流程,(4) 大数据信息处理平台高通量计算结构:改变传统的以计算为中心的高性能(HP,High Performance)计算结构为以数据为中心的高通量(HT,High Throughput)计算结构。高通量计算结构特别适合于来自Web服务的大量面向网络的日志(Log)信息的处理。端云协同计算系统:该系统在终端低层硬件上集成多种异构并行的计算设施,将其与虚拟化的云计算网络构成端云协同的大数据信
45、息处理计算平台。高性能云计算(High Performance Cloud Computing)数据中心基础设施:普及型高性能计算机(PHPC,Popular High Performance Computing)可以应对大数据应用中数据量大(Volume)和处理速度要求高(Velocity)等方面的挑战。,32,3、大数据处理流程,大数据分布式处理软件架构:HadoopHadoop的优点:它是一种能处理PB级数据应用程序的分布式计算平台,其优点是:高可靠性:能自动保存多个副本的存储数据,可自动将失败的任务重新分配处理。高可扩展性:Hadoop可在机群间分配数据和完成计算,机群可以方便地扩展数
46、以千计的节点。高效性:Hadoop可在节点间移动数据,保证负载动态平衡,以实现快速高效处理。Hadoop的组成:Hadoop的组成元素如下:分布式文件系统HDFS:其架构由一个Namenode节点(提供元数据服务)和多个Datanode节点(为HDFS提供存储块)组成的Master-Slave架构,Datanode在在Namenode的调度下进行数据的创建、删除和复制。HDFS内部通信基于标准的TCP/IP协议。MapReduce并行编程框架:其中Map把输入分解成Key/Value对;Reduce把Key/Value合并成最终的输出,而对Key/Value的操作是可以并行完成的。数据仓库工具
47、Hive:它提供了一系列工具用来进行数据提取、转换、加载(ETL);定义了类SQL的HQL查询语言,供用户查询数据;提供通过Web浏览器WUI用户接口来访问Hive。Hive将元数据(包括表名、表列、分区属性等)存储在数据库中,可用HQL进行查询等。大数据分析平台Pig:提供类SQL的PigLatin语言,将请求转换成一系列优化后的MapReduce运算;Pig为海量数据并行计算提供简单的编程接口,用户可通过Python或者Javascript编写Java程序。,33,3、大数据处理流程,大数据工具软件:Ysmart & RCFileYSmart (Yet another Sql-to-MAp
48、Reduce Translator):SQL-to-MapReduce高效翻译器将用类SQL说明性语言描述的某一“运算”(Operation)翻译成MapReduce的“作业”(Job)的步骤:识别“运算”的主句(如Join);主句中的每一“运算”生成相应MR的“作业”(如join op join MR job);将诸如选择、投影等其他运算加入相应的MR作业中。为了提高SQL-to-MR翻译的性能,对于一个SQL-like的提问,首先要转换成原语MR作业;其次进行相关性识别;再归并相关的MR作业;最后Ysmart被集成到数据仓库Hive中。RCFile(Record Columnar File):高效数据存放结构RCFile是Facebook公司数据分析系统中的标准数据存储结构,该结构集行存储和列存储的优点为一体,在MR环境下的大数据分析中扮演重要角色。在Hadoop系统中,常用文件存储格式有:支持文本的Text File和支持二进制的Sequence File,它们都是按行存储的;Facebook工程师们将来自Web服务器的大量日志(Log)数据经由数据加载器,按列存储的方式存入数据仓库中。,