ImageVerifierCode 换一换
格式:DOC , 页数:23 ,大小:1.38MB ,
资源ID:1458945      下载积分:15 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1458945.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(旅游大数据平台方案.doc)为本站会员(gs****r)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

旅游大数据平台方案.doc

1、 1 / 23旅游研究院大数据挖掘与分析科研平台建设方案2 / 233 / 23一. 背景1.1 数据挖掘和大数据分析行业背景和发展趋势移动互联网、电子商务以及社交媒体的快速发展使得企业需要面临的数据量成指数增长。根据 IDC 数字宇宙(Digital Universe)研究报告显示,2020 年全球新建和复制的信息量已经超过 40ZB,是 2015 年的 12 倍;而中国的数据量则会在 2020 年超过 8ZB,比 2015 年增长 22 倍。数据量的飞速增长带来了大数据技术和服务市场的繁荣发展。IDC 亚太区(不含日本)最新关于大数据和分析(BDA)领域的市场研究表明,大数据技术和服务市场

2、规模将会从 2012 年的 5.48 亿美元增加到 2017 年的 23.8 亿美元,未来 5 年的复合增长率达到34.1%。该市场涵盖了存储、服务器、网络、软件以及服务市场。数据量的增长是一种非线性的增长速度。据 IDC 分析报道,最近一年来,亚太区出现了越来越广泛的大数据和分析领域的应用案例。在中国,从互联网企业,到电信、金融、政府这样的传统行业,都开始采用各种大数据和分析技术,开始了自己的大数据实践之旅;应用场景也在逐渐拓展,从结构化数据的分析,发展到半结构化、非结构化数据的分析,尤其是社交媒体信息分析受到用户的更多关注。用户们开始评估以Hadoop、数据库一体机以及内存计算技术为代表的

3、大数据相关新型技术。最新调研结果显示,提高竞争优势,降低成本以及吸引新的客户是中国用户对大数据项目最期望的三大回报。目前现有的大数据项目主要集中在业务流程优化以及提高客户满意度方面的应用。IDC 发现很多用户希望大数据能够为企业带来业务创新,并且开始使用高级分析的解决方案以管理复杂的数据环境。过去一年中用户对社交数据的收集和分析应用的关注度增加明显。未来,地理位置信息分析将会增长迅速,这也会推动用户对大数据安全和隐私管理的关注。在亚太区,澳大利亚和新加坡的用户对大数据的相关投资主要在咨询服务方面,4 / 23更关注如何根据新的最佳实践需求设计和实施方案。中国和印度在大数据领域的硬件投资则非常明

4、显,更倾向于数据中心相关的基础架构的投资。在传统的数据分析与商业数据挖掘中,人们通常遵循二八原则。也就是任务 20%的用户提供了 80%的价值,因此利用优势资源用户对于少数用户的服务。随着互联网的发展,越来越多的低价值用户进入到商业体系中,这部分用户成为商业企业竞争的目标。比如电商行业,大量顾客都是传统意义上的低价值客户,数据表明对于这部分用户价值的挖掘可以改变二八原则,甚至可达到价值的几乎均匀分布。并且由于计算技术的发展,对于大数据的分析也成为了可能。1.2 旅游行业开展大数据分析及应用的意义旅游行业有行业广、规模大、移动性强的特点,因此更加依赖大数据。当前,旅游业也在“新常态”下迎来了升级

5、的挑战和变革的机遇,新常态对于一般的经济部门是经济速度放慢、人均 GDP 增速减小,很多传统行业在调整结构,但新常态对旅游行业却是速度加快的。旅游大数据的解决之道,在于整合国内多途径的大数据源,形成旅游大数据生态,为国内旅游业提供大数据解决方案,促进旅游业的转型升级。1.3 数据挖掘与大数据分析科研平台建设的必要性数据挖掘与大数据分析是以计算机基础为基础,以挖掘算法为核心,紧密面向行业应用的一门综合性学科。其主要技术涉及概率论与数理统计、数据挖掘、算法与数据结构、计算机网络、并行计算等多个专业方向,因此该学科对于科研平台具有较高的专业要求。科研平台不仅要提供基础的编程环境,还要提供大数据的运算

6、环境以及用于科学研究的实战大数据案例。这些素材的准备均需完整的科研平台作为支撑。目前,在我国高校的专业设置上与数据挖掘与大数据分析相关的学科专业包括:计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息、旅游以及公共卫生等。这些专业的在使用科研平台时的侧重点各不相同,使用人员层次水平也不相同,对算法的使用也不相同,因此,需要建设一个便利、操作简易、算法全面、可视化的大数据科研平台是非常有必要的。5 / 23二. 数据挖掘与大数据分析科研平台总体规划2.1 科研平台规划科研平台建设的基本原则是科研为主,同时为教学实验提供部分计算资源及安全资源,系统在授权范围内共享科研系统的计

7、算资源,提高教学实验的真实性。项目的总体架构如图 1 所示。2 1 U2 U2 U2 U2 U2 U2 U2 U2 U2 1 U2 U2 U2 U2 U2 U2 U2 U2 U2 1 U2 U2 U2 U2 U2 U2 U2 U2 U2 1 U2 U2 U2 U2 U2 U1 0 U核 心 交换 机千 兆 数 据交 换 机千 兆 数 据交 换 机H a d o o p 集 群可 视 化 计 算集 群虚 拟 化 实 验集 群H a d o o p 集 群大 数 据 科 研 环 境6 / 23图 1.总体架构图系统整体由千兆核心交换机作为核心节点,并以两个千兆接入交换机作为科研与实验环境的交换节点

8、。科研环境由我司开发的商业 Hadoop 集群为基础,上层集成便于操作的大数据科研应用系统,集成 10TB 大数据案例集及可拖拽的数据算法和可视化算法。 2.2 科研平台功能规划本科研平台针对数据挖掘有大数据分析研究内容,兼顾科研与教学的需求,既能满足科研工作中对大数据分析高性能平台要求也具有教学实验平台简单易用的特点。1) 大数据资源规划内置商业级数据资源,按常见科研分类规划数据资源,可以直接用于科学研究,具有数据资源授权管控功能。2) 大数据分析功能规划建设以商业版 Hadoop 为核心的大数据分析平台,系统提供 MapReduce 以及Spark 等大数据挖掘功能。系统具有完整的管理调度

9、功能。3) 硬件资源功能规划系统具有 24 个 Intel Xeon E5 CPU 计算能力,提供超过 40TB 的存储能力以及 1T 以上的内存,可满足 1000 任务共时计算内能,方便扩充。7 / 23三. 数据挖掘与大数据分析科研平台建设方案3.1 大数据科研平台设备架构机架 1计算节点计算节点接口节点接口节点主节点高性能交换机机架 2计算节点计算节点计算节点计算节点备份主节点高性能交换机机架 3计算节点计算节点计算节点计算节点管理节点高性能交换机图 3.设备架构3.1.1 主节点和备份主节点主节点负责整个分布式大数据平台的运行。主节点始终在内存中保存整个文件系统的目录结构,每个目录有哪

10、些文件,每个文件有哪些分块及每个分块保存在哪个计算上,用于处理读写请求。同时,主节点还负责将作业分解成子任务,并将这些子任务分配到各个计算节点上。备份主节点在主节点发生故障时承担主节点的各种任务,使得分布式大数据平台仍然能够正常运行。3.1.2 管理节点管理节点用于管理整个分布式大数据平台,可进行节点安装、配置、服务配置等,提供网页窗口界面提高了系统配置的可见度,而且降低了集群参数设置的复杂度。8 / 233.1.3 接口节点终端用户通过接口节点连接和使用分布式大数据平台,提交任务并获得结果,并可以用其他数据分析工具做进一步处理,与外界进行数据交互(如连接关系型数据库)。3.1.4 计算节点分

11、布式大数据平台包含了多个计算节点。计算节点是系统中真正存储数据和做数据运算的节点。每个计算节点周期性地和主节点通信,还时不时和客户端代码以及其他计算节点通信。计算节点还维护一个开放的 socket 服务器,让客户端代码和其他计算节点通过它可以读写数据,这个服务器还会汇报给主节点。3.2 大数据科研平台底层架构大数据科研平台低层架构以我司自主研发的商业版 Hadoop 为基础架构,包含和大数据分析、数据挖掘、机器学习等功能模块,并以 HDFS 以及 Hbase作为存储基础。分布式存储 ( S e n t r y )分布式资源调度管理( Y A R N )分布式持久化数据存储 ( H D F S

12、)分布式实时数据库( H b a s e )批处理( M a p R e d u c e , P i g )交互式 S Q L 引擎( H i v e )机器学习算法库( M a h o u t )内存计算( S p a r k )任务执行调度接口( S h e l l )数据交互接口( J D B C , O D B C )统计建模( R )管理监控( H o n y a E S - d a t a )图 2. 软件架构9 / 233.2.1 分布式持久化数据存储HDFSHadoop 分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点

13、。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS 是一个高度容错性的系统,适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS 放宽了一部分 POSIX 约束,来实现流式读取文件系统数据的目的。3.2.2 分布式实时数据库HBaseHBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文“Bigtable:一个结构化数据的分布式存储系统 ”。就像 Bigtable 利用了 Google 文件系统(所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 BigTa

14、ble 的能力。HBase 是 Apache 的Hadoop 项目的子项目。HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是 HBase 基于列的而不是基于行的模式。3.2.3 分布式资源调度管理YARNYarn 是 Hadoop2.0 的 MapReduce 框架。 YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager 将各个资源部分(计算、内存、带宽等)精心安排给基础 NodeManager( YARN 的每节点代理)。ResourceManager 还与

15、 ApplicationMaster 一起分配资源,与 NodeManager 一起启动和监视它们的基础应用程序。在此上下文中,ApplicationMaster 承担了以前的 TaskTracker 的一些角色,ResourceManager 承担了 JobTracker 的角色。3.2.4 交互式 SQL 引擎HiveHive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为MapReduce 任务进行运行。 其优点是学习成本低,可以通过类 SQL 语句快10 / 23速实现简单的 MapRedu

16、ce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。3.2.5 内存计算SparkSpark 是 UC Berkeley AMP 实验室所开源的类 Hadoop MapReduce 的通用的并行计算框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce 算法。3.3 科研平台的功能3.3.1 科研项目管理在科研平台中,科研计算是以计算项目来保存的,包括了计算项目建立、计算项目维护、计算项目设计、计算项目运行和结果可视化等几个环节。从技术角度来说,计算项目中也包括了算法组件、算法流程和数据集,一旦设计完后,就可用于计算,后期还可以调整算法和基于新的数据资源进行计算。计算项目完成后,可以训练出算法模型,在新的计算项目中使用已经训练好的模型进行数据的预测,形成一次训练多次使用的算法实现。3.3.2 平台内置数据集在科研工作中,如何获取到海量高质量大数据资源是最大的难点。目前在互联网等渠道是很难找到科研工作所需的数据源,尤其是经过数据清洗和治理后的高质量数据。数据超市平台利用以下模式,通过外部的资源,为高校的科研工作提供优质数据资源:

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。