1、 东 北 石 油 大 学 课 程 设 计 2017年 6 月 27 日 课 程 数 学模型课程设计 题 目 应用统计分析模型解决实际问题 学 院 数学与统计学院 专业班级 信计 14-2 学生姓名 沈小伟 学生学号 141001140228 指导教师 刘今子 东北石油大学课程设计任务书 课程 数学模型课程设计 题目 应用统计分析模型解决实际问题 专业 信计 14-2 姓名 沈小伟 学号 141001140228 主要内容、基本要求、主要参考资料等 主要内容 简单介绍统计分析模型的基础理论及本文所用的统计分析方法,了解 MATLAB 软件和 SPSS 软件的功能,进一步通过实例来掌握如何应 用常
2、用的统计分析 方法建立数学模型及求解。并利用本文所介绍的统计分析 方法来求解 2005 年数学建模的 “互联网 +”时代的出租车资源配置问题 。 课程设计的要求: 1.独立完成建模,并提交一篇建模论文。 2.论文的主要内容包括:摘要,问题的提出,问题的分析,模型假设,模型设计, 模型解法与结果,模型结果的分析和检验,包括误差分析、稳定性分析等。模型的优缺点及改进方向。必要的计算机程序。 3.文档格式:参照东北石油大学课程设计撰写规范和数学模型课程设计教学大纲。 4.课程设计结束时参加答辩。 主要参考资料: 1邹志云,蒋忠海,梅亚楠,宋程 .大中城市居民出行强度的聚类分析 .交通运输工程与信息学
3、报, 5(2):8-13,2007,6 2衡量出租车供求的三大指标 里程利用率、车辆满载率、万人拥有量 .运输经理世界, 2007,( 5) 3王榃 .成都市客运出租车需求分析 .西南交通大学工程硕士学位论文, 2009,12 4大连 , 北京 , 广州 , 杭州 , 深圳 , 武汉 、南京 2013 年年鉴 5韩中庚 .数学建模方法及其应用 .北京:高等教育出版社, 2005.6 完成期限 2017 年 6 月 27 日 -7 月 6 日 指导教师 刘今子 专业负责人 仲光萍 2017 年 6 月 27 日东北石油大学本科课程设计论文 摘 要 统计 ,顾名思义即将信息统括起来进行计算的意思,
4、它是对数据进行定量处理的理论与技术。统计分析,常指对收集到的有关数据资料进行整理归类并进行解释的过程。 统计分析是 统计工作 中 统计设计 、资料收集、整理汇总、统计分析、信息反馈五个阶段最关键的一步。如果缺少这一步或这一步做得不好,均将降低统计工作的作用。可以确切地说,没有统计分析,统计工作就没有活力、没有发展,也 没有统计工作的地位。所以统计工作者必须学会写统计分析,积极地为 领导决策 服务,这既是统计工作者的职责,也是统计工作的最终目的。 本文简要地介绍了统计分析中的聚类分析和回归分析的概念 和应用,以及常用的求解聚类分析和回归分析的方法,初步了解了统计分析问题的基本思想。此外,本文还简
5、要介绍了有关 MATLAB 和 SPSS 软件的功能和特点,以便 于用其去处理实际的统计分析问题。在对聚类分析和回归分析 的相关 内容做了简介之后,本文还列举了聚类分析和回归分析 的相关实例,并用 MATLAB 和 SPSS 软件对所举实例进行了编程求解,得出了模型的最优化配置方案和选择方案。 最后,本文着重的探讨了关于典型统计分析 模型 “互联网+”时代的出租车资源配置的不同时空供求匹配程度的计算。 随着信息科学的进步,统计应用的范围越来越广, 数据处理及数据 采集挖掘的方法呈现出多样化,统计分析方法也相对复杂化,专业化。 面对如今的大数据时代,统计分析的作用显得越来越重要,因此我们需要掌握
6、一些 常见的统计分析方法,以便于在以后的工作和学习中能够独立而有效的处理相关问题。 关键字: 统计分析;聚类分析;回归分析; MATLAB; SPSS 东北石油大学本科课程设计论文 目 录 第 1章 统计分析问题基础理论 . 3 1.1 统计分析相关介绍 .3 1.2 MATLAB 和 SPASS 软件介绍 .4 1.3 本章小结 .6 第 2章 统计分析常用方法简介 . 7 2.1 方法 1 聚类分析 .7 2.2 方法 2 回归分析 .8 2.3 本章小结 .9 第 3章 典型实例 . 10 3.1 实例 1 聚类分析 .10 3.2 实例 2 回归分析 . 11 3.3 本章小结 .15
7、 第 4章 数学模型案例 . 16 4.1 问题重述 .16 4.2 问题分析 .17 4.3 模型假设 .17 4.4 符号说明 .18 4.5 模型建立与求解 .18 4.6 模型评价 .28 4.7 本章小结 .29 结论 . 31 参考文献 . 31 第 1章 统计分析问题 基础理论 统计分析是指运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动。它是继 统计设计 、 统计调查 、 统计整理 之后的一项十分重要的工作,是在前几个阶段工作的基础上通过分析从而达到对研究对象更为深刻的认识。它又是在一定的选题下,集分析方案的设计、资料的搜集和整理而展开的研究活动。系统、完
8、善的资料是统计分析的必要条 件。 本文主要介绍了有关聚类分析和回归分析的有关知识,以及MATLAB 和 SPSS 软 件的功能。 1.1 统计分析相关介绍 1.1.1 聚类分析 一、 聚类分析的概念 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。 二、 聚类分析的应用 高维聚类分析已成为 聚类分析的一个重要研究方向。同时高维数据聚类也是聚类技术的难点是 随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、 Web 文档、基因表达数据等,它
9、们的维度(属性)通常可以达到成百上千维,甚至更高。但是,受“ 维度效应”的影响,许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果。高维数据聚类分析是聚类分析中一个非常活跃的领域,同时它也是一个具有挑战性的工作。目前,高维数据聚类分析在市场分析、信息安全、金融、娱乐、反恐等方面都有很广泛的应用。 1.1.2回归分析 一、回归分析的概念 回归分析( regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因 变量之间的关系类型,可分
10、为线性回归分析和非线性回归分析。如果在回归分析中,只包括一 个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。 回归分析的主要内容为:从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。对这些关系式的可信程度进行检验。在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自 变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向
11、前回归和向后回归等方法。利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。 二 、回归分析的应用 回归分析是重要统计推断方法。在实际应用中,回归分析是数理统计学与实际问题联系最为紧密,应用最为广泛,也是收效最为显著的统计分析方法;是分析数据,寻求变量之间关系有利的工具。随着科学技术的发展,生物、医学、农业、林业、经济、管理、金融、社会等领域的许多事迹新问题提出,有力的推动了回归分析的发展。 1.2 MATLAB 和 SPASS 软件介绍 1.2.1 MATLAB相关介绍 MATLAB 是美国 MathWorks 公司出品的商业 数学
12、软件 ,用于算法开发、数据可视化、数据分析以及 数值计算 的高级技术计算语言和交互式环境,主要包括 MATLAB 和Simulink 两大部分。 MATLAB 是 matrix&laboratory 两个词的组合,意为矩阵工厂(矩阵实验室)。是由美国 mathworks 公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将 数值分析 、 矩阵计算 、科学数据可视化以及非 线性 动态系统的 建模 和仿真等诸多强大功 能集成在一个易于使用的视窗环境中,为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案,并在很大程度上摆脱了传统非交互式 程序设计
13、语言 (如 C、 Fortran)的编辑模式,代表了当今国际科学计算软件的先进水平。 MATLAB 和 Mathematica、 Maple 并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。 MATLAB 可以进行 矩阵 运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、 信号处理与通讯、 图像处理 、 信号检测 、 金融建模 设计与分析等领域。 1.2.2 SPSS 软件相关介绍 1984 年 SPSS 总部首先推出了世界上第一个统计分析软件微机版本 SPSS/PC+,开创了 SPSS 微机系列产品的开发方向,极大地扩充
14、了它的应用范围,并使其能很快地应用于自然科学、 技术科学 、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就 SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。 SPSS 的基本功能包括数据管理、统计分析、图表分析、输出管理等等。 SPSS 统计分析 过程包括描述性统计、均值比较、一般线性模型、 相关分析 、 回归分析 、对数线性模型、 聚类分析 、数据简化、 生存分析 、 时间序列分析 、多重响应等几大类,每类中又分好 几个统计过程,比如回归分析中又分 线性回归 分析、曲线估计、 Logistic 回归、Probit 回归、加权估计、两阶段最小二乘法、 非
15、线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。 SPSS 也有专门的绘图系统,可以根据数据绘制各种图形。 SPSS 软件具有以下特点: 操作简便 界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击 “ 菜单 ” 、 “ 按钮 ” 和 “ 对话框 ” 来完成。 编程方便 具有 第四代语言 的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。对于常见的统计方法, SPSS 的命令语句、子命令及选择项的选择绝大部分由 “ 对话框 ” 的操作完成。因此,用户无
16、需花大量时间记忆大量的命令、过程、选择项。 功能强大 具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带 11 种类型136 个函数。 SPSS 提供了从简单的 统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、 Logistic 回归等。 数据接口 能够读取及输出多种格式的文件。比如由 dBASE、 FoxBASE、 FoxPRO 产生的 *.dbf文件, 文本编辑器 软件生成的 ASC 数据文件, Excel 的 *.xls 文
17、件等均可转换成可供分析的 SPSS 数据文件。能够把 SPSS 的图形转换为 7种图形文件。结果可保存为 *.txt 及html 格式的文件。 模块组合 SPSS for Windows 软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。 针对性强 SPSS 针对初学者、熟练者及精通者都比较适用。并且很多群体只需要掌握简单的操作分析,大多青睐于 SPSS,像 薛薇 的基于 SPSS 的数据分析一书也较适用于初学者。而那些熟练或精通者也较喜欢 SPSS,因为他们可以通过编程来实现更强大的功能。 1.3 本章小结 本章主要介绍了聚类分析和回归分析的概念以及他们在实际生
18、活中的广泛应用。并且介绍了将要用到的 MATLAB 和 SPSS 软件的功能和特点,以及他们在实际生活中的用处。 第 2 章 统计分析 常用方法 简介 2.1 方法 1 聚类分析 聚类分析是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方法。聚类分析时,用来描述样品或变量的亲疏程度通常有来两个途径,一是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定一点与点,类和类之间的距离,用点与点间距离来描述样品或变量之间的亲疏程度:另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲属程度。 聚类分析是实用多元统计分析的一个新的分支,聚类分析的功能是建立一种分类方
19、法,他将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类。 聚类分析 的内容十分丰富,按其聚类的方法可分为以下几种: (1)系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度。这一过程可用一张谱系聚类图描述。 (2)调优法(动态聚类法):首先对 n 个对象初步分类,然后根据分类的损失函数尽可能小的原则对其进行调整,直到分类合理为止。 (3)最优分割法(有序样品聚类法):开始将所有样品看做一类,然后根据某种最优准则将它们分割为二类、三类,一直分割到所需的 K类为止。这种方法适用于有序样品的分类问题,也称为有序样品的聚类法。 (4)模
20、糊聚类法:利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征两态数据或多态数据具有明显的分类效果。 (5)图论聚类法:利用图论中最小支撑树的理论来处理分类问题,创造了独具风格的方法。 (6)聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可以用来做预报的方法很多,如回归分析和判别分析。但对一些异常数据,如气象中的灾害性天气的预报,使用回归分析或判别分析处理的效果都不好,而聚类预报弥补了这一不足,只是一个值得重视的方法。 聚类分析根据对象的不同又分为 R 型和 Q 型两大类, R 型是对变量(指标)进行 分类, Q 型是对样品进行分类。 R型聚类分析的目的有以下几方面: ( 1)可
21、以了解变量间及变量组合间的亲疏关系; ( 2)对变量进行分类; ( 3)根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为重要变量,利用少数几个重要变量进一步作分析计算,如进行回归分析或 Q型聚类分析等。 Q 型聚类分析的目的主要是对样品进行分类。分类的结果是直观的,且比传统的分类方法更细致、全面、合理。当然使用不同的分类方法通常有不同的分类结果。对任何观测数据都没有唯一“正确”的分类方法。实际应用中,常采用不同的分类方法,对数据进 行分析计算,一边对分类提供具体意见,并由实际工作者决定所需要的分类数及分类情况。 2.2 方法 2 回归分析 多元线性回归模型的一般形式 回归分析是最
22、灵活最常用的统计分析方法之一,它用于分析一个因变量与一个或多个自变量之间的关系。特别是用于: (1)定量的描述和解释相互关系; (2)估测或预测因变量的值。 回归分析方法是在众多的相关变量中,根据实际问题考察其中一个或多个变量与其余变量的依赖关系。如果只要考察一个变量与其余多个变量之间的相互依赖关系,我们称为多元回归问题。若要同时考察多个因变量与多个自变量之间 的相互依赖关系,我们称为多因变量的多元回归问题。 多元回归分析是研究因变量 Y 与 m个自变量 12 mxx, , , x 的相关关系 ,而且总是假设因变量 Y 为随机变量,而 12 mxx, , , x 为一般变量。 下面我们来看一下
23、多元线性回归模型的建立。 假定因变量 Y 与 12 mxx, , , x 线性相关。收集到的 n 组数据( 12, , ,t t t tmy x x x, )( t=1,2, n)满足以下回归模型: 110 22+ ( 1 , 2 , , )( ) 0 , ( ) , ( , ) 0 ( ) ( 0 , ) ,t t m t m tt t i j ty x x t nE V a r C o v i j N 或 相 互 独 立 ( t = 1 , 2 , n ) . 记 C=1 1 111(1 )1mnn n mxxXxx, 0112 1 2,n m nyyyY 则所建回归模型的矩阵形式为 2( ) ( ),0 , ,nnYCE D I 或