1、 毕业设计(论文) 第1 页第 1 页基于 HADOOP 环境下的出行行为大数据分析摘要不同团体利用其活动产生的大数据和在团体周围环境中产生的大数据已经创造了许多机会。在交通领域运作的组织也从大数据分析中受益。研究旅客在选择其运输方式时的行为是确定运输相关政策的一个重要因素。本文阐述了如何利用大数据分析工具对与公众模式选择有关的数据进行分析。1. 介绍在交通研究中,出行行为已经成为一个热门话题。对旅客行为的分析可以帮助运输服务提供商提供可靠的运输服务,满足顾客的需求。尽管这给社会带来了许多好处,但人类行为的复杂性在整个分析过程中带来了许多挑战。研究人员试图发现大多数这些复杂的意向调查/(可见的
2、)行为调查。在调查过程中,客户提出了许多问题,这些问题最终导致了大型数据集的开发。然后对数据集进行分析,根据已知的出行需求模型公式建立出行需求模型。在出行需求建模领域有许多研究。Osman Idris et. al.1研究了心理因素对艾蒙顿、阿尔伯塔哈比等城市通勤出行方式选择的影响。Habibet. al.2用随机效用最大化法研究加拿大非工人的活动-出行行为。Kamargianniet. al.3通过对居住在塞浦路斯的学生进行抽样调查,研究了学校旅行出行方式选择中主观和客观因素的影响。Jiet. al.4 研究了南京(中国)居民的性别、年龄、收入和出行目的等几个因素对选择以公共自行车方式进入轨
3、道交通的影响。大数据是围绕大量数据开发的概念。由于旅游调查中存在大量的问题,大数据的概念也适用于出行调查数据。毕业设计(论文) 第 2 页当前的研究使用 Hadoop 生态体系中可用的工具去分析调查收集的数据。它通过几行代码说明了如何在 Hadoop 中快速、准确地分析大型数据集。在下面的部分中,首先概述了大数据特性和技术,并简要描述了大数据生态系统组件。更多详细信息是有关 Hadoop 组件的。接下来,提供了将数据导入 Hadoop 平台的步骤和分析步骤。讨论了每个代码块的分析结果。论文以结束语结尾。2. 大数据大数据是一个复杂度和模糊度都很高的数据量,并以不同的速度在增长。传统的数据分析技
4、术无法有效地处理大数据。当数据的容量、速度或多样性特征超过了传统技术可以处理的数量时,就出现了大数据的概念。因此,3V 是大数据的基本特性5。数据量是生成的数据量。从一个小实验中收集的数据的几千字节到飞机上传感器开发的数兆字节的数据,这可能会有所不同。另一个数据量非常大的例子是来自网站的点击流日志。谷歌是广泛使用这些数据集的公司之一。他们捕捉用户行为,这将有助于确定他们的营销策略。传统技术无法存储和操作如此大量的数据5 。数据的另一个重要方面是数据速度。在数据生命周期的每个阶段中,随时间传输的数据量指定了数据速度。传统的技术可以在输入数据流量固定的情况下对数据进行分析。然而,在大数据的情况下,
5、数据流的连续性和最小化处理延迟的必要性降低了传统数据分析工具的有效性。数据产生于社会媒体用户,智能手机的用户,和传感器。而且传感器产生的是新兴的高速率的数据。连接毕业设计(论文) 第 3 页互联网和自动车辆产生的数据可以达到每秒千兆字节的速度。从伦敦飞往纽约的飞机上的传感器网络可以产生 650 兆字节的数据5。最后,多样性是 3V 属性集中的一个关键组成部分。与传统数据分析技术完全兼容的数据集是结构化的,数据类型是预先确定的。另一方面,对大数据中的数据格式没有控制,数据可以是结构化的、半结构化的或非结构化的。与数据关联的元数据确定数据集的类型和内容。这通常出现在从 Twitter API 收集
6、的 tweets 中,其中收集的数据将以 json 格式显示 tweet 内容、发件人姓名、时间和日期等。从社交媒体网站(如 flickr)收集的照片包含一个元数据,其中包含照片拍摄的时间和日期、时间和日期和被上传到网站上的,与照片相关的评论和主题,照片的位置,分辨率等。为了分析各种格式的数据,数据分析系统应具有以下特点:可扩展性、分布式处理能力、图像处理能力、图形处理能力和视频/音频处理能力5。大数据分析工具相对于传统工具的其他优势是可扩展性、成本效率、灵活性、高性能和高可用性5。由于传统数据分析技术的能力有限,大数据分析需要一个全新的系统。这个新系统通常被称为“大数据生态系统”,由许多组件
7、组成,其中一些组件如下所述:-扩展数据库这是一种提高数据库容量的策略。通过添加数据库节点来增加容量,并按比例增加容量。该技术通过提供一个水平规模的集群数据库解决方案来支持分布式计算的原理。Mellanox 和 Clustrix 等几家公司提供扩展数据库。-水平平台这种平台存在于 Hadoop 这样的情况下,在 Hadoop 中,廉价的商品硬件集群保存数据并执行相关分析。这种平台最重要的特点是水平可扩展性、成本效毕业设计(论文) 第 4 页益和容错性。-垂直平台垂直平台允许客户在自己的服务上运行数据分析。这个平台可以服务数十万个客户。此类平台的示例包括网上银行系统中定制频率的交易历史报告请求、在
8、线游戏系统中整个游戏生命周期内的统计查询和交叉相关统计。这些平台几乎是实时运行的。它们通常比水平平台快。-BI/可视化工具数据可视化包括使用绘图和图形有效、高效和明确地表示数据。这将有助于信息交流。因此,可视化提高了复杂数据的可用性、可理解性和可访问性。Tableau、Infogram、ChartBlocks、DataWrapper 和 D3 是在大数据领域有帮助的数据可视化工具的几个例子。-安全许多组织已经开始使用大数据,而没有考虑这种技术的安全性。数据所有权和对数据保护的责任是安全问题的一些例子。在大数据的安全领域,有专门的机构,提供欺诈检测系统、安全事件和事件管理(SIEM)系统以及威胁
9、检测和预防系统。- HadoopApache Hadoop 是一个开源软件框架,它可以在分布式配置中存储数据,并且可以在软件框架中处理大量数据。商品硬件集群构成 Hadoop 的物理基础设施。有关 Hadoop 的项目和组件的更多信息,请参阅下一节。毕业设计(论文) 第 5 页-数据集成大数据中的数据量和多样性需要开发数据集成系统,该系统可以连接从各种来源收集的数据,并生成统一的数据视图。通过数据集成系统预处理的数据集将为组织创造更多的业务价值。Talend 是在大数据上进行数据集成的公司之一。-硬件与大数据兼容的物理基础设施是一个关键组件,可以在用于数据存储和处理的硬件集中定义。数据处理体系
10、结构决定了所需的硬件类型。例如,水平平台的硬件要求不同于垂直平台的硬件要求。IBM 和 Intel 等公司是大数据基础设施行业的活跃参与者。-服务有许多公司提供高度依赖大数据的服务。他们收集来自不同组织和社会各阶层的数据。在高级别执行详细分析之后,他们将大量数据的分析结果出售给组织,这些组织可以从将结果合并到其业务策略中获益。为了实现利润最大化,大数据服务提供商尝试使用免费的数据源。例如,有许多网站使用从谷歌 API收集的免费数据来生成基于位置的服务。例如,有一些医疗保健分析公司将在线网站和社交媒体上提供的众包信息与医疗保健服务提供商提供的信息结合起来,提出有利于医疗保健系统的见解。-云提供商
11、云提供商通过允许其他人和组织使用他们的计算能力来提供基于互联网的计算框架。它们提供共享的计算资源和数据。云计算服务通常在一定限度内是免费的。客户应该为超限额计算服务支付订阅费。亚马逊的公共弹性计算云、毕业设计(论文) 第 6 页Google 大数据服务( Google 计算引擎、Google 大查询和 Google 预测 API)和Microsoft Azure 是著名云提供商的几个例子。3. Hadoop 生态系统如前一节所述,Hadoop 是大数据生态系统中的一个软件框架。如今,这种组件在工业界和研究人员中都非常流行。Hadoop 还由各种组件组成,其中一些组件如下所述6:-Hadoop
12、分布式文件系统( HDFS)它是一个分布式、可扩展和可移植的文件系统,在 Java 中为 Hadoop 框架编程。高吞吐量、可扩展性和高可用性是该系统的主要功能。-MapReduce它是在集群上执行并行分布式算法的大规模计算的框架。MapReduce 还具有可扩展性,通过重新提交作业来实现可靠性。-Pig Latin它是一种高级并行数据流语言。它利用提取、转换、加载技术,并在分析过程中的任意点存储数据。-HBASE它是一个开源的、非关系的、由 Java 编程的分布式数据库。 HBase 具有可扩展性和压缩功能,并且在内存操作中执行。-Hive它是 Hadoop 中的一个数据仓库,执行数据汇总并
13、通过各种查询访问数据。毕业设计(论文) 第 7 页索引功能加速了 hive 中的进程。数据通过其相关元数据以不同的格式存储。-ZooKeeper它是一个提供分布式同步的集中服务。此外,它还充当分布式配置服务和分布式系统的命名注册表。高可用性是 ZooKeeper 的一个重要属性。-Ganglia它是一个分布式监控系统,专门为集群和网络等高性能计算系统设计。Ganglia 是一个可扩展的 Hadoop 项目。-Sqoop这个 Hadoop 组件的主要操作是在 ApacheHadoop 和结构化数据库(RDBMS)之间传输数据。-Hama它是一个用于大规模科学计算的分布式引擎,如矩阵、图形和网络算
14、法(BSP-HCatalogs)。这是一个表管理层,用于将 Hive 元数据传输到其他Hadoop 应用程序。-Mahout它是一个带有可扩展机器学习库的 Apache 软件包。它的机器学习算法更侧重于协作过滤、集群和分类。-Ambari它是一个 Apache 软件基础项目,执行 Hadoop 集群的供应、管理和监控。Ambari 被 IBM、eBay 、Kayak 和三星等知名公司使用。毕业设计(论文) 第 8 页-Flume它是一种分布式服务,可以有效地收集、聚合和移动日志数据。可调的可靠性、健壮性、高可用性和容错性是 Hadoop 组件的关键特性。-Giraph它是在 Hadoop 平台
15、上开发的一个交互式图形处理系统。-DRILL 此系统是用于 Hadoop 的低延迟 SQL 查询引擎。4. 数据说明与编制这些数据是在 XX 首都德黑兰收集的。全市面积 700 平方公里,辖 22 个市,600 多个交通分析区。这些数据是在 2010 年 12 月的一次调查中收集的。教育旅行占 2010 年全市每天 750 万次旅行的 27%。当天幼儿园到 12 年级的学生人数为 1119571 人。大约 70%的学生在中学或高中学习。采用随机分层抽样的方法,对 4700 名学生进行问卷调查。根据城市人口和社会性别分布进行分层。在对 3441 份返回的问卷进行预处理后,仍有 3274 份回复有
16、待进一步分析。调查问卷包含 19 个问题,这些问题主要由两部分组成:社会经济和人口特征、学校出行模式特定特征7 图 1 显示了调查数据的屏幕截图。毕业设计(论文) 第 9 页图 1 测量数据的屏幕截图作为分析的第一步,数据被导入 Hadoop 的文件浏览器中( 图 2)。图 2 文件浏览器中存储的数据的屏幕截图创建了一个以使各种 Hadoop 项目能够访问的元数据。图 3 Hadoop 中创建的元数据的屏幕截图图 4 显示了用 hive 编写的代码的屏幕截图。完整的程序将在下一节中列出。毕业设计(论文) 第 10 页图 4 Hive 程序的屏幕截图5. hadoop 数据处理如前所述,Hive
17、 是被选定用于执行分析的 Hadoop 项目。简单的编码和快速的结果开发是在 Hadoop 中选择该工具的主要原因。完整的代码如下:select ModeFr1, count(*) FROM mode_choice group by ModeFr1;select ModeTo1, count(*) FROM mode_choice group by ModeTo1;select ModeFr1, gender, count(*) FROM mode_choice group by ModeFr1, gender;select ModeTo1, gender, count(*) FROM mode_choice group by ModeTo1, gender;select ModeFr1, age, count(*) FROM mode_choice group by ModeFr1, age;select ModeTo1, age, count(*) FROM mode_choice