1、云展大数据机,新加坡国立大学/浙江大学数据库研究组,团队简介,新加坡国立大学2011年美国新闻(USNews)的大学排名中为第28名,亚洲第三名2011-2012泰晤士报大学排名中为世界第40名,亚洲第三名2012 QS World University Rankings的计算机系排名,国立大学排第9名基于新加坡国立大学计算机系数据库组的研究团队教授博士导师:3人博士后:3人博士生:16人硕士生:10人研究助理:8人,团队带头人,黄铭钧(Ooi Beng Chin)教授现任新加坡国立大学计算机学院院长ACM和IEEE双料院士2009年SIGMOD贡献奖2011年新加坡科学家总统奖2012年IE
2、EE Computer Society Kanai奖国际知名刊物TKDE的主编曾多次担任国际顶级会议SIGMOD, VLDB, ICDE的执行委员会主席共发表国际论文200多篇,团队带头人,陈刚教授浙江大学计算机学院副院长 近五年来共在研和完成国家863计划项目四项、国防预研项目四项,国家计委产业化前期项目一项 获国家科技进步二等奖一项、国家科技进步三等奖一项、浙江省科技进步一等奖二项、教育部科技进步二等奖一项,年度浙江省科技进步三等奖一项 开发国产数据库神舟Oscar系统,云展大数据机概述,定位:国内大数据分析平台,为应用开发提供支撑特色:软硬件一体化设计对大数据分析应用开发全周期的支持大数
3、据收集大数据编目(元数据管理)大数据并行处理引擎数据可视化、知识查询性能卓越云计算技术并行处理技术,国内大数据市场形势分析,数据来源:CCW Research(计世资讯 )是ICT产业权威的市场研究和咨询机构市场规模2011年开始起步,2012-2016,高速发展2012年为4.7亿元,每年超过100%的增长速度,大数据分析市场行业分布,2012年大数据分析需求行业分布政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。结论:各个行业都存在大数据应用的需求,潜在市场空间非常可观。,云展大数据机,收集网站日志,交易数据,音频视频数据,即时信息,可扩展数据采集框架,数据导入,
4、元数据管理分布式大数据存储,确立分析目标编写分析程序,大数据并行处理引擎,为分析目标生成报表,趋势图等,图表生成工具,大数据分析应用,大数据分析平台,云展大数据机软件架构,数据收集框架,基于分布式文件系统的数据存储,元数据管理,E3大数据并行处理框架,SQL接口,E3编程接口,MapReduce接口,可视化工具,大数据知识库,文本分析工具,结构化数据分析工具,云展大数据机硬件架构,标准机架式设计每个机架可容纳40台节点机节点机通过千兆以太网连接节点机采用标准PC服务器可扩展到20个机架原型机:awan(2个机架,76台节点机),E3将数据处理过程描述为一个线性工作流,工作流中每一个节点称为一个
5、阶段,每阶段包含若干处理单元,每个处理单元对数据进行部分处理。E3按照工作流的顺序,并行地调度处理单元在计算节点上运行,自动在处理单元之间传递中间运算结果,最终完成整个数据处理过程。,pu1,pu1,pu1,pu1,pu2,pu2,pu3,pu4,pu4,pu5,pu5,pu5,云数据 存储服务,云 数据存储服务,PU processing unit (处理单元),E3与阿帕奇Hadoop的性能比较,Grep任务:每个节点535MSelect任务:每个节点1G,Grep任务,Select任务,混合式数据分析工具,同时支持非结构化的文本分析和结构化的数据库分析建立在统一的E3引擎之上,能够进行交
6、互和联合分析支持对海量数据的快速分析,发现其中隐藏的知识、行为模式等提供描述语言,支持用户进行自定义的数据分析,文本分析工具,结构化数据分析工具,非机构化分析工具,分布式存储和处理模型无需定义表结构数据直接存储与分布式文件系统中自动错误处理和恢复基本的数据访问接口put/get: 随机的文档数据读取scan: 批量数据扫描tokenize: 将文档组织成单词组以提供给上层分析处理分析数据接口Extract operator : 提供基于正则表达式和字典的匹配操作Select operator : 提供基于用户选择条件的过滤操作Join operator : 将来自多个数据源的文档/文字流进行合
7、并Consolidate operator : 去重操作提供类似于SQL的文本处理分析语言: EPQL,非结构化处理流程,每一个EPQL将对特定集合的文档进行处理每个文档将通过4个操作的处理,然后中间结果传给连接操作和去重操作结果将是符合用户要求的文档或统计内容,比如:查找所有包含关键词:Cloud Computing,在2012年产生的网页统计近一个月内,出现包含钓鱼岛的文档与包含日本车销量内容的文档的关联度,文本分析示例:用户反馈信息分析,在电子商务网站,如京东等,用户购买结束后,会对产品购买过程及产品本身进行评价,通过分析用户的反馈信息,可以发现其中的问题,结构化数据分析,结构化数据分析
8、通过维护并定期更新data cube的方式来提供高效的分析查询结果根据时间戳来实现同时支持实时事务处理和分析查询,数据分片,分布式索引技术,在结构化分析工具中,系统建立多维的分布式索引以支持高效的并行查找分布式索引技术建立分布式二级索引支持并发地在多节点上同时查询可以和本地数据库索引连接例如:分布式B树索引结构,,可视化工具,将分析结果以报表的形式展现给用户支持线图、饼图、柱装图、趋势图等常用的图表格式标签云以及数据关联挖掘,云展大数据机与其他大数据分析平台的比较,分析案例:95598客服服务,主要功能包括客户档案查询、电量电费查询、业务办理进度查询,以及业务受理、故障报修、咨询受理、投诉举报
9、、消息订阅主要业务流程,客户电话记录,语音记录,用户电话,客户电话记录,由客服人员手工录入,包括:电话起止时间客户身份信息原因(归类为:电费查询、投诉、保修等几大类)简单内容概述(不完整,客户人员匆匆记录)当前的处理方式简单的统计信息:平均电话时常客户分布信息每种电话的统计百分比缺乏深度的分析用户因为什么而投诉,这种投诉是否是普遍存在的每个用户是否通过拨打955598电话完成了他的请求,语音记录,用户和客服之间的对话会被完整记录为语音文件语音文件包含了丰富的信息:用户打电话的主要原因客服的服务态度客服的服务能力用户的满意度因为缺少相关工具,当前采用人员采样收听的策略,效率低,覆盖率低,针对客服
10、信息的大数据分析,用户数据,云展数据仓库,导入,混合数据分析,改进业务流程,产生新的数据,关联,翻译,关键技术非结构化语音分析,客服信息,用户信息,语音语调分析,看是否按照规定的态度服务,记录了用户的投诉内容和对服务的满意度,内容分割:按照音色音域,分析结果用户满意度,用户拨打客服电话都是有一定的目的,目的达到与否则表示了客服的成功率通过对用户的语义、情绪分析,符合下列模型的,分析认为是正确满足用户需求的,不满,愤怒,疑问,称赞,感谢,释疑,平静,分析结果客服质量,客服质量定义为:单位时间内满足的用户数量对某一特定客服人员:,分析结果热点分析,通过整理分析用户通话内容得到用户投诉的主要目的使用
11、数据挖掘和数据可视化来统计关键问题支持海量数据的快速处理分析客户通话内容,按照词频构造标签云:,关键技术分结构化数据分析,系统支持按照关键词(一个或多个)将录音电话切片分类比如,要查找关于“电费”相关的记录中主要的投诉内容通过索引和分布式处理机制,可以快速的生成新的统计数据(类似于在数据仓库中做切片操作):,关键技术结构化/分结构化混合分析,客服内容由两部分:关于电话基本信息的关系数据,具体的语音信息关联分析将两者结合起来进行深度分析:电话耗时10分钟以下和10分钟以上的用户满意度统计分布在不同区域的用户满意度统计收入在不同范围的用户关心的主要问题客服填写的简要信息是否和用户录音记录一致客户电
12、话主要集中来电时间分布,以及和满意度的关联度客服的效率和时间的关系,其他案例,网易私有云平台推进企业内数据共享、全局信息挖掘与商业智能,虚拟化,虚拟机、网络、云硬盘,数据管理,DDB、对象存储、文件中心、关系数据存储、全文检索、并行分析、Timeline、NewSQL、缓存服务,应用架构,负载均衡(LVS、反向代理)、DNS、消息队列,扩展功能,图像处理、文本分析(分词、标签、分类)、数据挖掘(聚类、关联规则)、语音处理、GIS,数据共享,IP城市库、乐库、书库,用户管理与监控平台,管理员运维平台,应用平滑迁移,配额与计费,硬件,IDC、服务器、存储、网络,Web App Engine for Java,应用托管,epiC Group,谢谢,谢谢,
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。