1、 东 北 石 油 大 学 课 程 设 计 2017年 7 月 14 日 课 程 数 学模型课程设计 题 目 应用统计分析模型解决实际 问题 学 院 数学与统计学院 专业班级 信计 14-2班 学生姓名 沈小伟 学生学号 141001140228 指导教师 刘今子 东北石油大学课程设计任务书 课程 数学模型 课程设计 题目 应用统计分析模型解决实际问题 专业 信息与计算科学 姓名 沈小伟 学号 141001140228 主要内容、基本要求、主要参考资料等 主要内容 简单介绍统计分析 模型的基础理论及本文所用的统计分析方法, 进一步通过实例来掌握如何应用常用的统计分析方法建立数学模型及求解。并利用
2、本文所介绍的统计分析方法来求解 2015年数学建模的“互联网 +”时代的出租车资源配置问题 。 课程设计的要求: 1.独立完成建模,并提交一篇建模论文。 2.论文的主要内容包括:摘要,问题的提出,问题的分析,模型假设,模型设计, 模型解法与结果,模型结果的分析和检验,包括误差分析、稳定性分析等。模型的优缺点及改进方向。必要的计算机程序。 3.文档格式:参照东北石油大学课程设计撰写规范和数学模型课程 设计教学大纲。 4.课程设计结束时参加答辩。 主要参考资料: 1邹志云,蒋忠海,梅亚楠,宋程 .大中城市居民出行强度的聚类分析 .交通运输工程与信息学报, 5(2):8-13,2007,6 2衡量出
3、租车供求的三大指标 里程利用率、车辆满载率、万人拥有量 .运输经理世界, 2007,( 5) 3王榃 .成都市客运出租车需求分析 .西南交通大学工程硕士学位论文, 2009,12 4大连 , 北京 , 广州 , 杭州 , 深圳 , 武汉 、南京 2013 年年鉴 5韩中庚 .数学建模方法及其应用 .北京:高等教育出版社, 2005.6 完成期限 2017 年 7 月 3 日 -7 月 14 日 指导教师 刘今子 专业负责人 仲光苹 2017 年 7 月 3 日东北石油大学本科课程设计论文 I 摘 要 统计 ,顾名思义即将信息统括起来进行计算的意思,它是对数据进行定量处理的理论与技术。统计分析,
4、常指对收集到的有关数据资料进行整理归类并进行解释的过 程。 统计分析是 统计工作 中 统计设计 、资料收集、整理汇总、统计分析、信息反馈五个阶段最关键的一步。如果缺少这一步或这一步做得不好,均将降低统计工作的作 用。可以确切地说,没有统计分析,统计工作就没有活力、没有发展,也没有统计工作的地位。所以统计工作者必须学会写统计分析,积极地为 领导决策 服务,这既是统计工作者的职责,也是统计工作的最终目的。 本文简要地介绍了统计分析中的聚类分析和回归分析的概念 和应用,以及常用的求解聚类分析和回归分析的方法,初步了解了统计分析问题的基本思想。此外,本文还简要介绍了有关 MATLAB 和 SPSS 软
5、件的功能和特点,以便于用其去处理实际的统计分析问题。在对聚类分析和回归分析的相关内容做了简介之后,本文还列举了聚类分析和回归分析的相关实例,并用 MATLAB 和 SPSS 软件对所举实例进行了编程求解,得出了模型的最优化配置方案和选择方案。最后,本文着重的探讨了关于典型统计分析模型“互联网 +”时代的出租车资源配置的不同时空供求匹配程度的计算。 随着信息科学的进步,统计应用的范围越来越广, 数据处理及数据 采集挖掘的方法呈现出多样化,统计分析方法也相对复杂化,专业化。 面对如今 的大数据时代,统计分析的作用显得越来越重要,因此我们需要掌握一些常见的统计分析方法,以便于在以后的工作和学习中能够
6、独立而有效的处理相关问题。 关键字: 统计分析;聚类分析;回归分析; MATLAB; SPSS 东北石油大学本科课程设计论文 II 目 录 第 1章 统计分析问题基础理论 . 1 1.1 统计分析相 关介绍 . 1 1.2 MATLAB 和 SPASS 软件介绍 . 2 1.3 本章小结 . 3 第 2章 统计分析常用方法简介 . 4 2.1 方法 1 聚类分析 . 4 2.2 方法 2 回归分析 . 5 2.3 本章小结 . 5 第 3章 典型实例 . 6 3.1 实例 1 聚类分析 . 6 3.2 实例 2 回归分析 . 7 3.3 本章小结 . 11 第 4章 数学模型案例 . 12 4
7、.1 问题重述 . 12 4.2 问题分析 . 13 4.3 模型假设 . 13 4.4 符号说明 . 14 4.5 模型建立与求解 . 14 4.6 模型评价 . 21 4.7 本章小结 . 22 结 论 . 24 参考文献 . 24 附 录 . 25东北石油大学本科课程设计论文 1 第 1章 统计分析问题 基础理论 统计分析是指运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动。它是继 统计设计 、 统计调查 、 统计整理 之后的一项十分重要的工作,是在前几个阶段工作的基础上通过分析从而达到对研究对象更为深刻的认识。它又是在一定的选题下,集分析方案的设计、资 料的搜集和
8、整理而展开的研究活动。本文主要介绍了有关聚类分析和回归分析的有关知 识,以及 MATLAB 和 SPSS软件的功能。 1.1 统计分析相关介绍 1.1.1 聚类分析 1.1.1.1聚类分析的概念 聚类分析指将物理或抽象对象的集合分组成 由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。 1.1.1.2聚类分析的应用 ( 1) 商业 : 聚类分析 被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征; 聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。 ( 2)
9、生物 : 聚类分析被用来动植 物分类和对基因进行分类,获取对种群固有结构的认识 。 ( 3) 地理 : 聚类能够帮助在地球中被观察的数据库商趋于的相似性 。 ( 4) 保险行业 : 聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组 。 ( 5) 因特网 : 聚类分析被用来在网上进行文档归类来修复信息 。 ( 6) 电子商务 : 聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务 。 1.1.2回
10、归分析 1.1.2.1回归分析的概念 东北石油大学本科课程设计论文 2 回归分析( regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一 个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则 称为多元线性回归分析。 1.2.2.2回归分析的内容 从一组数据出
11、发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。 对这些关系式的可信程度进行检验。 在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。 利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归 方法计算十分方便。 1.1.2.2回归分析的应用 回归分析是重要统计推断方法。在实际应用中,回归分析是数理统计学与实际问题联系最为紧密,应用最为广泛,也是收效最
12、为显著的统计分析方法;是分析数据,寻求变量之间关系有利的工具。随着科学技术的发展,生物、医学、农业、林业、经济、管理、金融、社会等领域的许多事迹新问题提出,有力的推动了回归分析的发展。 1.2 MATLAB 和 SPASS 软件介绍 1.2.1 MATLAB相关介绍 MATLAB 是美国 MathWorks 公司出品的商业 数学软件 ,用于算法开发、数据可视化、数据分析以及 数值计算 的高级技术计算语言和交互式环境,主要包括 MATLAB和 Simulink 两大部分。 MATLAB 是 matrix&laboratory 两个词的组合 ,意为矩阵工厂(矩阵实验室)。是由美国 mathwork
13、s 公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将 数值分析 、 矩阵计算 、科学数据可视化以及非 线性 动态系统的 建模 和仿真等诸多强大功能集成在一个易于使用的视窗环境中,为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案,并在很大程度上摆脱了传统非交互式 程序设计语言 (如 C、 Fortran)的编辑模式,代表了当今国际科学计算软件的先进水平。 东北石油大学本科课程设计论文 3 MATLAB 和 Mathematica、 Maple 并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。 MATLAB 可以进行
14、矩阵 运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、 信号处理 与通讯、 图像处理 、 信号检测 、 金融建模 设计与分析等领域。 1.2.2 SPSS 软件相关介绍 1984 年 SPSS 总部首先推出了世界上第一个统计分析软件微机版本 SPSS/PC+,开创了 SPSS 微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、 技术科学 、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就 SPSS 的自动统计绘图、数据的深入 分析、使用方便、功能齐全等方面给予了高度的评价。 SPSS 的基本功能包括数据管理
15、、统计分析、图表分析、输出管理等等。 SPSS统计分析 过程包括描述性统计、均值比较、一般线性模型、 相关分析 、 回归分析 、对数线性模型、 聚类分析 、数据简化、 生存分析 、 时间序列分析 、多重响应等几大类,每类中又 分好 几个统计过程,比如回归分析中又分 线性回归 分析、曲线估计、Logistic 回归、 Probit 回归、加权估计、两阶段最小二乘法、 非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。 SPSS 也有专门的绘图系统,可以根据数据绘制各种图形。 SPSS 针对初学 者、熟练者及精通者都比较适用。并且很多群体只需要掌握简单的操作分析,大多青睐于
16、SPSS,像 薛薇 的基于 SPSS 的数据分析一书也较适用于初学者。而那些熟练或精通者也较喜欢 SPSS,因为他们可以通过编程来实现更强大的功能。 1.3 本章小结 本章主要介绍了聚类分析和回归分析的概念以及他们在实际生活中的广泛应用。并且介绍了将要用到的 MATLAB 和 SPSS 软件的功能和特点, 以及他们在实际生活中的用处 。东北石油大学本科课程设计论文 4 第 2 章 统计分析 常用方法 简介 2.1 方法 1 聚类分析 2.1.1聚类分析的原理 聚类分析是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方法。聚类分析时,用来描述样品或变量的亲疏程度通常有来两个途径,一
17、是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定一点与点,类和类之间的距离,用点与点间距离来描述样品或变量之间的亲疏程度:另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲属程度。 聚类分析是实用多元统计分析的一个新的分支,聚类分 析的功能是建立一种分类方法,他将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类。 2.1.2聚类分析的方法 (1)系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度。这一过程可用一张谱系聚类图描述。 (2)调优法(动态聚类法):首先对 n 个对象初步分类,然后根据分类的损
18、失函数尽可能小的原则对其进行调整,直到分类合理为止。 (3)最优分割法(有序样品聚类法):开始将所有样品看做一类,然后根据某种最优准则将它们分割为二类、三类,一直分割到所需的 K 类 为止。这种方法适用于有序样品的分类问题,也称为有序样品的聚类法。 (4)模糊聚类法:利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征两态数据或多态数据具有明显的分类效果。 (5)图论聚类法:利用图论中最小支撑树的理论来处理分类问题,创造了独具风格的方法。 (6)聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可以用来做预报的方法很多,如回归分析和判别分析。但对一些异常数据,如气象中的灾害性天气的预
19、报,使用回归分析或判别分析处理的效果都不好,而聚类预报弥补了这一不足,只是一个值得重视的方法。 东北石油大学本科课程设计论文 5 2.2 方法 2 多元线性 回归分析 2.2.1多元线性回归模型的原理 多元回归分析是研究因变量 Y 与 m 个自变量 下 x1,x2,.,xm 的相关关系 ,而且总是假设因变量 Y 为随机变量,而 x1,x2,.,xm为一般变量。 2.2.2多元线性回归模型的建立 假定因变量 Y 与 x1,x2,.,xm 线 性 相 关 。 收 集 到 的 n 组 数 据( yt1,xt1,xt2, .,xtm)( t=1,2, n)满足以下回归模型: 110 22+ ( 1 ,
20、 2 , , )( ) 0 , ( ) , ( , ) 0 ( ) ( 0 , ) ,t t m t m tt t i j ty x x t nE V a r C o v i j N 或 相 互 独 立 ( t = 1 , 2 , n ) . 记 C=1 1 111(1 )1mnn n mxxXxx, 0112 1 2,n m nyyyY 则所建回归模型的矩阵形式为 2( ) ( ),0 , ,nnYCE D I 或 2, ( 0 , ),nnYCNI 并称它们为经典多元回归模型,其中 Y 是可观测的随机向量, 是不可观测的随机向量, C 是已知矩阵, , 2是未知参数,并设 nm,且 ran
21、k(C)=m+1。 在经典回归分析中,我们讨论模型中参数 =( 0, 1, ., m) 和 2的估计和检验问题。近代回归分析 中讨论变量筛选、估计的改进,以及对模型中的一些假设进行诊断等问题。 2.3 本章小结 本章主要介绍了统计分析问题的聚类分析和回归分析的概念及其常用的求解方法,了解了他们的基础思想。并将这两种分析方法运用到第三章和第四章中去解决实 际的数学问题。 东北石油大学本科课程设计论文 6 第 3 章 典型实例 3.1 实例 1 聚类分析 下面是聚类分析的一个简单例子。有五个样品,每个只测量了一个指标,分别为 1,2,6,8,11,我们用最短距离法将它们分类。 (1)计算五个样品两两间的距离,得初始类间的距离矩阵 D(0), 表 3-1 初始距离阵 D( 0) 1G 2G 3G 4G 5G 1G 0 2G 1 0 3G 5 4 0 4G 7 6 2 0 5G 10 9 5 3 0 (2)由 D(0)知类间最小距离为 1,于是将 G1和 G2合并成 G6,并计算 G6和其他类之间的距离,的新的距离阵 D(1), 表 3-2 初始距离阵 D( 1) 6G 3G 4G 5G 6G 0 3G 4 0 4G 6 2 0 5G 9 5 3 0