基于SPSS的多元回归分析模型选取的应用.doc

上传人:滴答 文档编号:3448670 上传时间:2019-05-30 格式:DOC 页数:31 大小:3.64MB
下载 相关 举报
基于SPSS的多元回归分析模型选取的应用.doc_第1页
第1页 / 共31页
基于SPSS的多元回归分析模型选取的应用.doc_第2页
第2页 / 共31页
基于SPSS的多元回归分析模型选取的应用.doc_第3页
第3页 / 共31页
基于SPSS的多元回归分析模型选取的应用.doc_第4页
第4页 / 共31页
基于SPSS的多元回归分析模型选取的应用.doc_第5页
第5页 / 共31页
点击查看更多>>
资源描述

1、 毕 业 论 文题 目 基于 SPSS 的多元回归分析模型选取的应用 专 业 统计学专业 第 1 页(共 30 页)基于 SPSS 的多元回归分析模型选取的应用摘 要 本文不仅对于复杂的统计计算通过常用的计算机应用软件 SPSS 来实现,同时通过对两组数据的实证分析,来研究统计学中多元回归分析中的变量选取,让大家对统计学中的多元回归分析中模型的选取以及变量的选取和操作方法有更深层次的了解. 一组数据是对于淘宝交易额的未来发展趋势的研究,一组数据时对于我国财政收入的研究. 本文通过两个实证即淘宝交易额研究和财政收入研究从不同程度上对非线性回归模型和变量选取的研究运用通俗的语言和浅显的描述将 SP

2、SS 在多元回归分析中的统计分析方法呈现在大家面前,让大家对多元回归分析以及 SPSS 软件都可以有更深一步的了解. 通过 SPSS 软件对数据进行分析,对数据进行处理的方法进行总结,找出 SPSS对于数据处理和分析的优缺点,最后得在对变量的选取和软件的操作提出建议. 关键词:统计学,SPSS,变量选取,多元回归分析 AbstractThis article not only for complex statistical calculations done by the commonly used computer application software of SPSS, through

3、the empirical analysis of the two groups of data at the same time, to study the statistics of the variables in the multivariate regression analysis, let everybody in the multiple regression analysis of statistical model selection as well as the selection of variables and operation methods have a dee

4、per understanding. Is a set of data for the future development trend of research taobao transactions, a set of data for the research of our countrys fiscal revenue. In this paper, through two empirical taobao transactions and fiscal revenue research from different degree of the study of nonlinear re

5、gression model and variable selection using a common language and plain the SPSS statistical analysis method in multiple regression analysis of present in front of everyone, let everyone to multiple regression analysis and SPSS software can have a deeper understanding. Through SPSS software to analy

6、ze data, and summarizes method of data processing, find out the advantages and disadvantages of SPSS for data processing and analysis, finally had to put forward the proposal to the operation of the selection of variables and software. Keywords: Statistical, SPSS, The selection of variables, multipl

7、e regression analysis第 2 页(共 30 页)目 录第一章 引 言 .3第二章 多元回归模型的选取 .42.1 多元回归分析概述 .42.2 相关系数概述 .52.3 非线性回归模型概述 .52.4 多元线性回归模型自变量的选取 .6第三章 非线性回归模型案例:淘宝交易额模型的研究 .73.1 回归模型变量的确定 .73.1.1 数据来源 .73.1.2 复相关系数 .83.1.3 散点图看线性关系 .93.1.4 回归分析看拟合度 .113.1.5 确定回归模型变量 .113.2 调整后的变量的相关分析 .123.2.1 散点图 .123.2.2 计算相关系数 .143

8、.3 多元线性回归分析 .163.4 小 结 .18第四章 线性回归分析变量选取案例:财政收入模型的研究 .184.1 数据来源及变量选取 .184.2 相关分析 .204.2.1 散点图 .204.2.2 计算相关系数 .214.3 线性回归分析 .244.4 逐步回归 .264.5 小 结 .27第五章 总 结 .28参考文献 .30第 3 页(共 30 页)第一章 引 言随着社会的发展,统计的运用范围越来越广泛,统计学作为高等院校经济类专业和工商管理类专业的核心课程,不管是在经济管理领域,或是在军事、医学等领域的研究中对于数量分析与统计分析都需要更高的要求,需要用到的数学知识较多,应用方

9、面的灵活性也较强,计算量大且复杂.然而科学研究的深入,研究的对象也日益变得复杂,复杂系统的研究问题更是成为当今研究的热点. 为了更好的描述一个复杂的现象,就需要大量的数据和信息,如何高效、准确地利用已知的信息便成为当今社会研究的一项重要课题. 在科学技术飞速发展的今天,统计学通过不断吸收和融合相关学科的新理论,开发应用新技术和新方法,拓展新的领域的同时不断深化和丰富了统计学传统领域的理论与方法. 在我国,社会主义市场经济体制的逐步建立,实践发展的需要对统计学提出了新的更多、更高的要求. 随着我国社会主义市场经济的成长和不断完善,统计学的潜在功能将得到更充分更完满的开掘. 从 20 世纪 60

10、年代开始,关于回归自变量的选择成为统计学中研究的热点问题,统计学家提出了许多回归选元的准则,并提出了许多行之有效的选元方法. 在应用回归分析去处理实际问题时,回归自变量选择是首先要解决的重要问题. 通常在做回归分析时,人们根据所研究问题的目的,结合经济理论罗列出对因变量可能有影响的的一些因素作为自变量引进回归模型,把一些对因变量影响很小的,有些甚至是没有影响的自变量,不但使得计算量变大,估计和预测的精度也下降了. 此外,如果遗漏了某些重要变量,回归方程的效果肯定不好. SPSS软件作为当今国际上运用广泛的统计分析软件,其功能齐全带有各种特点,在各个领域内都得到了迅速普及,并成为各个行业提高管理

11、水平、形成科学决策的重要手段. 然而,我国对于该软件的运用和理解始终处于早期应用阶段,无论是在功能的研究开发还是实际生活当中的运用都与西方发达国家相差甚远. 尤其是在管理决策方面,都因为没有进行深度分析而造成了浪费,要么就是利用 SPSS 软件进行简单分析而未进行深度开发,导致所得的信息有限、各信息间的关系不明确,最终导致管理者的判断出现偏差.基于以上背景,本文通过总结和吸取其他国内外学者对统计学研究的,并结合我国的实际情况,本文采用了案例一对于网络购物这块的的研究,通过对 2005 年到 2012年的居民消费水平,以及我国网络普及度,我国人人均纯收入以及我国的居民消费水平对淘宝网的未来发展趋

12、势进行非线性回归模型的研究以及案例二对于我国财政收入的进行变量选取研究,通过对 1992 年到 2012 年的人均国内生产总值,城镇居民家庭第 4 页(共 30 页)人均可支配收入,全社会固定投资,进出口总额,居民消费价格水平对我国财政收入的影响进行定量数据的研究. 通过对数据的选取,回归模型的确定以及软件的操作方法来告知读者如何在 SPSS 的操作中变量选取的原则、要求和方法. 第二章 多元回归模型的选取2.1 多元回归分析概述回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法(即寻找具有相关关系的变量减的数学表达式并进行统计推断的一种统计方法). 按照其所涉及的自变量,

13、可分为一元回归分析和多元回归分析;线性回归分析和非线性回归分析是按照自变量和因变量之间的关系划分的.而本文运用了多元线性回归分析中的方法,多元线性回归分析就是指回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系. 多元回归分析的主要内容有以下几点:(1)从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数. 估计参数的常用方法是最小二乘法;(2)对这些关系式的可信程度进行检验;(3)在许多自变量共同影响着一个因变量的关系中,判断哪些自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归

14、等方法;(4)利用所求的关系式对某一生产过程进行预测或控制. 回归分析研究的主要问题是确定 与 间的定量关系表达式,这种表达式称为回YX归方程;对求得的回归方程的可信度进行检验;判断自变量 对因变量 有无影响;XY利用所求得的回归方程进行预测和控制. 回归分析主要应用于研究两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,通过分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测.2.2 相关系数概述第 5 页(共 30 页)相关关系是一种

15、非确定性的关系,相关系数是研究变量之间线性相关程度的量. 相关关系是现象间客观存在的,但数值又是不严格及不完全确定的相互依存关系. 1)复相关系数在一元回归分析中我们用相关系数 来说明两变量之间线性相关的程度,在多元回r归分析中,仍用它来表示 与其他自变量之间的线性密切程度,此为复相关系数 . 复y相关是指因变量与多个自变量之间的相关关系. 复相关系数只是反映变量间表面的非本质的联系,因为变量很有可能受到其他变量的影响. 2)偏相关系数在多变量的情况下,变量之间的相关系数是相当复杂的. 任意两个变量之间都有可能存在着相关关系,因此,只知道被解释变量与解释变量的总的相关程度是不够的. 如果需要了

16、解某两个变量间的相关程度,就应在消除其他变量影响的情况下来计算他们的相关系数,这就是偏相关系数. 偏相关系数与复相关系数不同,复相关系数的取值在 0-1 之间,而偏相关系数则是有正有负,所以复相关系数与偏相关系数之间也有可能相差很大. 变量之间本存在错综复杂的关系,甚至可能使得符号也相反,但是偏相关系数才是变现变量之间的本质联系的. 偏相关的主要用途:偏相关主要是用来研究自变量与因变量之间的关系的,其通过得到的自变量与因变量数据来进行计算,通过偏相关系数可以看出哪些自变量对因变量的影响更大一些,同时对于偏相关系数较小的变量,可以剔除. 2.3 非线性回归模型概述非线性回归模型是指在众多的现象中

17、,分析变量之间的关系时不符合解释变量线性和参数线性的一种模型. 在实际的经济活动中,经济变量的关系是相当复杂的,直接表示为线性关系的情况也并不多见. 但大多数的非线性关系是可以通过一些简单的数学处理,使之转化为线性关系,从而通过线性回归来进行计算. 而非线性回归模型又分为可化为线性模型的非线性回归模型和不可化为线性模型的非线性回归模型.本文研究的是可转化为线性模型的非线性回归模型,而可转化为线性模型的非线性回归模型又有好几种方法可以对变量进行转换.其有以下几种模型:1)多项式函数模型对于形如: ,kxxy210的模型为多项式模型.令,12,kzz第 6 页(共 30 页)原模型可化为线性形式,

18、kzzy210那么就可以用多元线性回归分析的方法进行处理了.2)指数函数模型对于形如:,kxxxeey210的模型为指数函数模型. 令,kxxxzz,21原模型可化为线性形式,ky210那么就可以用多元线性回归分析的方法进行处理了.3)双曲线模型;4)半对数模型和双对数模型等.本文将对指数函数型非线性模型进行案例说明,所以对于其他类型的非线性回归模型的道理是一致的,在这里就不进行一一解释.2.4 多元线性回归模型自变量的选择在多元线性回归模型中自变量的选择实质上就是模型的选择. 现设一切可供选择的变量是 个 , 它们组成的回归模型称为全模型(记: ) ,在获得 组观测数据后,t 1tmn我们有

19、模型:, ),0(2nnINXY其中: 是 的观测值, 是 未知参数向量, 是 结构矩阵,并假定Y1n1mm的秩为 . Xm现从 这 个变量中选 变量,不妨设 ,那么对全模型中的参tx,21 t tx,21数 和结构矩阵 可作如下的分块(记: ):Xtp, .qqpX我们称下面的回归模型为选模型:,),0(2npINY第 7 页(共 30 页)其中: 是 的观测值, 是 未知参数向量, 是 结构矩阵,并假定Y1np1pXn的秩为 .pX自变量的选择可以看成是这样的两个问题,一是究竟是用全模型还是用选模型,二是若用选模型,则究竟应包含多少变量最适合. 然而自变量的选择与相关系数,回归分析都有密切

20、的关系,自变量的选择需要通过一系列的验证,剔除之后才能得到最好的变量从而得到最好的回归模型. 下面我们用两个案例来对多元回归模型的选取来进行解释和探讨.第三章 非线性回归模型案例:淘宝交易额研究3.1 回归模型变量的确定 3.1.1 数据来源为研究淘宝网未来发展趋势,从新浪官方微博淘宝数据魔方中获得淘宝 2009 年聚划算中购物群众的年龄比例作为定性数据,进行研究年龄对淘宝购物的影响. 并在新浪财经网上获得淘宝网自 2003 年到 2012 年的淘宝交易额以及淘宝注册人数的数据. 在中商情报局里获得我国近网络普及度等数据并从国家统计年鉴中选取统计指标居民消费水平. 淘宝注册人数( )在一定程度

21、上反应了网络购物的群众的人数,反应了当今社1x会网络购物的普遍性. 同时淘宝的注册人数也展现了人们对网络购物的认可度,换言之也就是说接受了网络购物并会在网上进行消费,是对网络购物很大程度上的支持. 我国网络普及度( )是指我国近几年网络在我国普及的范围,这一块更好 的反2x映了网络对居民网络消费的影响,因为网络是网络消费的必要条件. 我国网络普及度反映的是在我国日趋发展的经济下,人们对网络的接受程以及信任程度也是直接影响到淘宝的网络购物. 居民消费水平( )主要通过消费的物质产品和劳务的数量和质量来反映 . 居民3x消费水平的提高也能很好的展现在网络消费上作出的贡献. 第二产业增加值( )是指

22、采矿业,制造业,电力、煤气及水的生产和供应业,4建筑业. 而制造业的发展也相继影响着产品的销售,所以在这里采用第二产业对淘宝交易额的影响. 通过对以上这三个定量数据的研究来其与淘宝交易额的关系,从而研究淘宝未来的发展趋势以及优劣态. 原始数据如下:第 8 页(共 30 页)表 3.1为消除数据之间因单位不同产生的量纲的影响,对数据进行标准化得如下数据得到表 3.23.1.2 复相关系数对表 3.2 的数据进行复相关系数的研究,看变量之间的复相关关系,得到如下表 3.3的复相关系数表:第 9 页(共 30 页)表 3.3表 3.3 中有带“*”号的结果表明有关的两变量在 0.01 的显著性水平下

23、显著相关,由上图可知, 与 的相关系数为 0.9870,表示变量之间存在线性关系,其相关系数y1x检验对应的概率 值为 0.000,低于显著性水平 0.05,说明淘宝交易额与淘宝注册人数P之间相关性显著. 与 的相关系数为 0.9230,表示变量之间存在线性关系,其对2xe应 值为 0.000,小于显著性水平 0.05,说明淘宝交易额与我国网络普及度之间相关性显著. 与 的相关系数为 0.9630,表示变量之间存在线性关系,其对应 值为y3x P0.000,小于显著性水平 0.05,说明淘宝交易额与居民消费水平之间相关性显著. 与y的相关系数为 0.9190,表示变量之间存在线性关系,其对应 值为 0.000,小于显4xe著性水平 0.05,说明我国第二产业增加值与居民消费水平之间相关性显著. 综上所述通过 SPSS 得出的相关系数的矩阵得到为:0.987 , 0.923 , 0.963 , 0.919 . 1yxr2yxr3yxr4yxr虽然变量都通过了检验,但是可以看到 和 较另外两个复相关系数较低,因此对24变量进行散点图的分析来了解自变量与因变量的相关关系.3.1.3 散点图看线性关系对 与各个变量作出散点图y(1)淘宝注册人数 与淘宝网交易总额 的相关性散点图:1xy图3.1(2)网络普及度 与淘宝网交易总额 的散点图:2xy

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。