1、 I 管理工程决策方法 课程论文 院 系 物流学院 专 业 物流工程 班 级 物工一班 II 目录 关键词 . 1 第 1 章 绪论 . 1 1.1 研究目的 . 1 1.2 数据来源 . 1 1.3 研究思 路 . 2 第 2 章 数据挖掘与处理 . 3 2.1 数据挖掘简介 . 3 2.1.1 数据挖掘的定义 . 3 2.1.2 挖掘数据的类型 . 3 2.1.3 数据挖掘的任务 . 3 2.1.4 数据挖掘的步骤 . 4 2.2 数据处理 . 4 2.2 时间序列数据准备 . 5 2.3 聚类分析和回归数据准备 . 6 第 3 章 地区生产总值数据分析 . 6 3.1 2012-2017
2、 年时间序列分析 . 6 3.1.1 时间序列分析简介 . 6 3.1.2 数据分析 . 7 3.2 2008-2011 年各地区生产总值聚类分析 . 11 3.2.1 聚类分析及算法简介 . 11 3.2.2 数据分析 . 12 3.3 2008 年 -2011 年各城市地区生产总值回归分析 . 16 3.3.1 线性回归介绍 . 16 3.3.2 数据分析 . 17 第 4 章 总结 . 20 1 地级市地区生产总值数据分析 关键词 : 地区生产总值; 时间序列 ; 聚类分析 ; 回归分析 第 1 章 绪论 1.1 研究 目的 地区生产总值( 地区 GDP)是一个地区的所有常住单位在一定时
3、期内所生产的全部最终产品和服务的价值总和是反映经济总体状况最重要的指标 , GDP 就像天气的卫星云图 一样 ,能够提供经济状况的完整图像,能够帮助领导者判断经济是在萎缩还是在膨胀,是需要刺激还是需要控制,是处于严重衰退还是处于通胀威胁之中。如果没有像 GDP 这样的总量指标,政策制定者就会陷入杂乱无章的数字海洋而不知所措。, 地区 GDP 可以反映一个地区的经济发展规模,判断其经济总体实力和经济发展的快慢 , 还可以 用来进行经济结构分析,是宏观经济决策的重要依据 。所以通过研究各地区的生产总值,可以让我们 了解 全国各地区的 经济发展水平并将同一级别的城市进行聚类,同时也有利于进行相应的政
4、策支持。 1.2 数据来源 此数据来自 2009-2011 年中国城市统计年鉴的 地级市地区生产总值 (如下图) 2 图 1- 1 数据来源 1.3 研究思路 数据收集与整理运用时间序列分析进行预测分析2008 年 - 2011 年各地区生产总值回归分析2008 - 2011 年中国各地区生产总值数据搜集2012 年 - 2017 年北京地区生产总值预测2008 - 2011 年每年各地区生产总值聚类分析2008 - 2011 年每年各地区生产总值相似水平2008 - 2011 年各地区全市与市辖区关系中国各城市发展水平及相关政策支持图 1- 2 研究思路 3 第 2 章 数据挖掘 与处理 2
5、.1 数据挖掘简介 2.1.1 数据挖掘的定义 数据挖掘是从大量的原始数据中采用多种方法去寻找数据间隐含的有趣模式和知识的过程。如果数据挖掘的过程可形象的比喻成从黄金矿山中幵釆黄金(如图 2-1 所示 ),那么原始数据具的大容量、含噪音和异质数据就像是矿山上的废渔一样 ;挖掘算法好比肝釆工具一样具有多样化特点 ;数据间隐藏的模式和知识就如黄金一样事先人们是看不到的、但是对人们又非常有用。 1 2.1.2 挖掘数据的类型 数掘挖掘足一种通用的技术 ,它可以挖掘任何对目标应用有意义的数据。 这些数据大致可分以下四类 : ( 1) 数据库数据 作为数据挖掘研究中最主要的数据形式 ,关系数据库拥有丰富
6、的数据源。它是许多表的汇集 ,每个表都包含许多字段 ,并且存放大量的记录。每一个记录代表一个对象 ,被唯一的关键字所标识 ,并且被其它字段描述它的属性。 ( 2) 数据仓库 数据仓库是按照某一主题组织的、经过清理加工和整理的、能够反映历史各阶段信息 的、相对较稳定的数据的累积。 ( 3) 事务数据 事务数据库中的每一个记录表示一个事务 ,每个事务拥有唯一的标识号 ,以及组成事务的项的列表。 ( 4) 其它类型的数据 除了上述三种数据以外 ,还有很多其它数据也可以作为数据挖掘的数据源。例如工程设计数据 (如集成电路 )、多媒体和文本数据 (如音频、视频 )、数据流 (如视频监控 )、空间数据 (
7、如导航地图 )等等。 2.1.3 数据挖掘的任务 数据的挖掘任务包括两类 ,第一类任务用于刻画目标数据中数据的性质 ,第二4 类任务用于在当前数据上分析判断 ,然后做出预测。前者属于描述性任务 ,而后者属于预测性任务。一般而言 ,数据的挖掘任务有如下 6 种任务 : ( 1) 数据特征化与区分 ( 2) 关联分析 ( 3) 分类 ( 4) 聚类分析 ( 5) 离群点分析 ( 6) 序列模式 2.1.4 数据挖掘的步骤 ( 1) 确定问题 明确数据挖掘任务的具体需求和确定挖掘釆用的具体方法 (如关联、分类、聚类等 )。 ( 2) 数据收集和预处理 此步骤主要包括数据的选择、预处理以及转换。 1
8、数据选择就是确定挖掘任务的目标数据 ,依据任务要求 ,从相关数据源中选取任务相关数据。 2、数据预处理一般包括空缺处理、平滑噪声、数据规约、数据 类型转换、数据集成等处理。 3、 数据转换是指从对象的初始属性中选取挖掘任务相关的属性 ,来提高挖掘的整体效率。 ( 3) 数据挖掘 根据所选定的挖掘方法 ,对上面步骤处理好的数据 ,选择合适的挖掘算法进行数据挖掘得出模型。 ( 4) 分析和评估 对上面步骤中挖掘所得的模型进行评估分析。需要注意的是整个数据挖掘的过程是需要不断反馈和修正的。当在挖掘的过程中发现由于数据不合适或者挖掘方法不恰当 ,造成挖掘的结果不够理想 ,那么需要重复挖掘过程 ,如果有
9、需要的话 ,可以从头重新开始。 ( 5) 知识的应用 将最后确定的有用挖掘结果 (知识 )应用到问题中去。 2.2 数据处理 在数据挖掘整体过程中 ,海量的原始数据中存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。为此,在数据挖掘算法执行之前,必须对收集到的原始数据进行预处理,以改进数据的质量,提高数据挖掘过程的效率、精度和性能。数据预处理主要包括5 数据清理、数据集成、数据变换与数据归约等技术 图 2- 1 剔除各省名称和空值 2.2 时间序列数据准备 选取各城市地区生产总值的全市数值列汇总到时间序列原数据 表格 图 2- 2 6 2.3
10、 聚类分析 和回归 数据准备 将 2008-2011 年数据整理 图 2- 3 第 3 章 地区生产总值数据分析 3.1 2012-2017 年时间序列分析 3.1.1 时间序列分析简介 时间序列:是指将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。时间序列法是一种定量预测方法,亦称简单外延方法。在统计学中作为一种常用的预测手段被广泛应用。时间序列分析在第二次世界大战前应用于经济预测。二次大战中和战后,在军事科学、空间科学、气象预报和工业自动化等部门的应用更加广泛。时间序列分析 (Time series analysis)是一种动态数据处理的统计方法。该方法基于
11、随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。 时间序列分析方法 :它包括一般统计分析 (如自相关分析,谱分析等 ),统计模型的建立与推断,以及关于时间序列的最优预测、控制与滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相7 依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,记录了某地区第一个月,第二个月,第 N 个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。 随着计算机的相关软件的开发,数学知识不再是空谈理论,时间序列分析主要是建立在数理统计等知识之上,应用相关数 理知识在相关方面的应用等。 3.1.2 数据分析 (1)导入 2008 年 -2009 年数据 图 3- 1 ( 2)读取值 图 3- 2 ( 3)设置时间区间和初始年份 8 时间以年为单位,初始年份为 2008 年 图 3- 3 并预测未来五年 图 3- 4 采用指数平滑方法, 指数平滑方法: 最近的过去态势,在某种程度上会持续到最近的未来,所以将较大的权值放在最近的数据样本上。 原理:任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的加权平均。 基本思想:预测值是以前观察值的加权和,且对不同的数据给予不同的权值,新数据给较大的权值,旧数据给较小的权值。