1、 Excel 在多元回归分析中的应用研究第一章绪论统计学是一门提供数据信息的收集、处理、归纳和分析的理论与方法的科学。然而随着社会的发展,统计的运用领域越来越广泛,不管是在经济管理领域,还是在军事、医学、生物、物理、化学等领域的研究中人们对于数量分析与统计分析都提出更高的要求。统计学作为高等院校经济类专业和工商管理类专业的核心课程,需要用到的数学知识较多,应用方面的灵活性也较强,计算量大且复杂。而 Excel 是以其入门简单、使用直观、操作方便和功能强大等特点为广大用户所喜爱,在数据处理相关领域中 Excel 更是有大量的受众。Excel 系统中含有许多常用的统计分析方法,但大多数人由于缺乏基
2、本的统计知识,对此望而却步。1.1 摘要网络购物则是给传统的零售产业带来了巨大而深远的影响,近几年越来越多的人通过当当、京东、淘宝这样的互联网平台进行交易,网络购物的兴起给人们带来了极大的便利和实惠。淘宝网则是亚太最大的网络零售商圈,其致力于打造领先网络零售商圈,淘宝注册成员也覆盖了中国大部分网购人群,交易额占中国网络市场的 80%。本文不仅对于复杂的统计计算通过常用的计算机应用软件 Excel 来实现,同时通过对淘宝网的交易额与当今社会的发展现状相结合进行研究,通过 Excel 做多元线性回归分析,让大家对统计中的多元回归有所了解的同时,也可以了解到淘宝网近年来的发展情况 以及未来的发展趋势
3、。本文通过实例对淘宝网未来发展趋势的研究运用通俗的语言和浅显的描述将Excel 在多元回归分析中的统计分析方法呈现在大家面前,并采用了 2005 年到2012 年的居民消费水平,以及我国网络普及度,我国人人均纯收入以及我国的居民消费水平对淘宝网的未来发展趋势进行定量数据的研究而后提出我们对于淘宝未来发展趋势的预测和应对之策。同时本文也运用了 Spss 和 Eviews 软件对数据进行分析,从而把起与 Excel 对数据进行处理的方法进行对比,找出Excel 对于数据处理很分析相对于 Spss 和 Eviews 之间的差别及优点,最后得出结论。关键词:Excel 多元回归分析 淘宝网 SPSS
4、Eviews1.2 引言 我国网络购物相对欧美起步较晚,但发展速度非常快。但随着我国社会主义市场经济的日趋完善,无论是在宏观经济的经济调控领域还是在微观的企业管理领域中,人们要进行高效的监控和科学的管理就必须准确及时的获得经济运行中的各类信息。淘宝网自 2003 年 5 月 10 日成立以来,在短短的两年内,迅速成为国内网络购物平台的第一名,占据了中国网络购物的 70%左右的市场份额。然而 2008 年以来,受到全球金融危机蔓延深化的影响,我国多数行业都受到了不同程度的冲击。但包括网络零售的电子商务行业发展却一路繁荣,成为危机背景下经济增长的一个亮点。而网上购物作为一种新兴的购物方式出现在日常
5、百姓的生活中,必然有其吸引人之处。 喜欢上网购物的网民认为,用互联网来完成购物不仅节省了时间,免除了舟车劳顿,还有机会买到在本地市场难觅的商品。当然网上购物有利有弊,网购的利在于:1.节省时间,精力2.有机会买到本地市场难觅的商品3.是一种时尚的方式4.可以货比三家5.价格相对市面上的同样商品优惠6.选购当时最流行,最淘宝热卖的商品人们通过淘宝购物可以买到比在实体店更便宜的商品。这也恰恰反映了商家对低成本交易的渴望,同时也反映了消费者对低价格的渴望。网上购物的弊在于:1.质量难以保证2.无法预先体验商品3.网络安全性存在隐患,担心被人恶意侵犯隐私和被盗银行帐号和密码4.物流方工作不到位导致货物
6、没有及时到达或者根本收不到 所以在这个飞速发展的时代,淘宝作为网络购物的巨头面临了很大的挑战,本文采用淘宝举例一是了解 Excel 做多元回归分析的方法,二是找到 Excel 做多元回归分析的优点及便利之处,三是让大家对 Excel,Spss 和 Eviews 软件之间的差别同时更好的运用 Excel 在统计数据方面的应用,同时还可以研究淘宝的未来发展趋势从而用淘宝网的现状作为实例进行研究和探讨以获得更好的发展趋势,如今网络购物普及全国,本文不仅让读者在学习 Excel 统计方面的知识的并且学到了多元回归分析的其他统计方法,同时也能了解到一些淘宝的未来发展现状,对其购物也有一定的帮助。1.3
7、回归分析的概述1.3.1 回归分析的概念回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法(即寻找具有相关关系的变量减的数学表达式并进行统计推断的一种统计方法) 。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。 回归分析的主要内容为:从一组数据出发,确定某些变量
8、之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。对这些关系式的可信程度进行检验。在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用 Y 表示;而影响因变量取值的的另一类变量称为自变量,用 X 来表示。1.3
9、.2回归分析研究的主要问题(1)确定 Y 与 X 间的定量关系表达式,这种表达式称为回归方程;(2)对求得的回归方程的可信度进行检验;(3)判断自变量 X 对因变量 Y 有无影响;(4)利用所求得的回归方程进行预测和控制。1.3.3 回归分析的应用 相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。一般来说,回归分
10、析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。1.4 国内外研究现状Excel 是 微软公司的办公软件 Microsofit office 的组件之一,是微软办公套装软件的一个重要的组成部分,它可以进行数据的处理统计分析和辅助决策操作,广泛的应用于管理、统计财经、金融等众多领域。您可以使用 Excel 创建工作簿(电子表格集合)并设置工作簿格式,以便分析数据和做出更明智的业务决策。Excel 是用来更方便处理数据的办公软件。Excel 统计功能是
11、一种与 Microsofit office 的套装软件信息共享综合性强且大众化的统计软件。运用它既可节省时间,又能减少在计算机操作技能和经济条件方面所受到的限制,发挥计算机和网络强大的经济统计图表及数据采集、储存、传输、处理和表现能力,把经济数据加工成经济信息,深化认识,增进经济学的理论性并促进统计方法在经济及其管理中的广泛应用。Excel Home 汇聚了中国大陆及港台地区的众多 Office(特别是 Excel)高手,他们都身处各行各业,并身怀绝技!在他们的热心帮助之下,越来越多的人取得了技术上的进步与应用水平的提高,越来越多的先进管理思想转化为解决方案被部署,同时,越来越多的人因此而加入
12、了互相帮助,共同进步的阵营。无论是在校学生,普通职员还是企业高管,都将能在这里找到所需要的。通过学习运用 Office 这样的智能平台,您可以不断拓展自己的知识层面,也可以把自己的行业知识快速转化为生产力,创造价值。在科学技术飞速发展的今天,统计学广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法,并拓展了新的领域。今天的统计学已展现出强有力的生命力。在我国,社会主义市场经济体制的逐步建立,实践发展的需要对统计学提出了新的更多、更高的要求。随着我国社会主义市场经济的成长和不断完善,统计学的潜在功能将得到更充分更完满的开掘。1.5 本文研究的主要内
13、容第一章绪论简述多元回归分析的概念、背景、研究的意义和研究概况。并介绍课题研究的主要内容及论文章节安排。第二章数据的来源和变量的选取分析数据的来源和变量的选取理由,建立预测的模型、回归模型的参数估计以及求解。第三章多元回归分析的建模与检验用 Excel,Spss 和 Eviews 对数据进行相关性分析,进行建模和估计,做线性回归分析方差分析,确定预测值。第四章结果及分析对上述的 Excel,Spss 和 Eviews 对数据建立的模型进行分析,对数据进行显著性检验,修正拟合模型以及对数据进行预测。第五章 Excel,Spss 和 Eviews 操作方法对比及总结对本文的研究工作进行概括和总结。
14、并对延续性课题提出自己的观点和意见。第二章数据的来源和变量的选取2.1 数据的来源 及变量的选取理由 为了研究淘宝网未来发展趋势,本文从新浪官方微博淘宝数据魔方中获得淘宝 2009 年聚划算中购物群众的年龄比例作为定性数据,进行研究年龄对淘宝购物的影响。并在新浪财经网上获得淘宝网自 2005 年到 2012 年的淘宝交易额以及淘宝注册人数的数据。在中商情报局里获得我国近网络普及度等数据。并从国家统计年鉴中选取统计指标居民消费水平和人均纯收入,其中人均收入( )是通过城镇人均收入,城镇人口总数,农村人均纯收入,农村人口总数4x和我国总人口数计算出来。计算公式为:人均收入=(城镇人口总数*城镇人均
15、收入+农村人口总数*农村人均纯收入)/总人口数 如下图:(人均收入保留了两位小数)这里人均收入是指我国 居民平均每人每年的人均纯收入,这反映了我国居民工资在逐年的增加,收入的增加,加上消费水平的增加,所以收入的增加与网络消费在一定程度上也有很大的联系,在这里用人均收入的增加来反映了可支配收入的增加,那么居民用于消费的部分也增加了。淘宝注册人数( 1x)在一定程度上反应了网络购物的群众的人数,反应了当今社会网络购物的普遍性。同时淘宝的注册人数也展现了人们对网络购物的认可度,换言之也就是说接受了网络购物并会在网上进行消费,是对网络购物很大程度上的支持。我国网络普及度( 2x)是指我国近几年网络在我
16、国普及的范围,这一块更好的反映了网络对居民网络消费的影响,因为网络是网络消费的必要条件。我国网络普及度反映的是在我国日趋发展的经济下,网络也得到了普遍的广泛,人们对网络的接受程度,信任程度也是直接影响到淘宝的网络购物。居民消费水平( 3x)是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。通过消费的物质产品和劳务的数量和质量反映出来。居民消费水平是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。它主要通过消费的物质产品和劳务的数量和质量来反映。 居民消费水平的提高也能很好的展现在网络消费上作出的贡献。通过对以上这四个定量数
17、据的研究来其与淘宝交易额的关系,从而研究淘宝未来的发展趋势以及优劣态。原始数据如下:由于数据单位不同,为了消除量纲的影响,把数据标准化进行处理,得到如下标准化的数据(所有取值保留了两位小数):2.2 模型的建立在一元线性回归分析中,重点放在了用模型中的一个自变量 X 来估计因变量 Y。实际上,由于客观事物的联系错综复杂,一个因变量的变化往往受到两个或多个自变量的影响。测定他们的数量变动,提高预测和控制的精确度,就要考虑更多的自变量建立多元回归模型。设随机变量淘宝销售额为变量 y 与淘宝网注册人数 、我国网络普及度 、1x2x我国居民消费水平 和我国居民人均收入 的线性回归模型为:3x4x421
18、0y其中 y 是 , , , 的线性函数加上误差项 ,30, 1, 2, , 是模型的参数, 是误差项,是不能被自变量的线4性关系所揭示的变异性。多元线性回归模型在满足下列基本家丁的情况下,可以采用普通最小二乘法(OLS)估计参数。 多元回归模型有以下的基本假定:1、随机扰动项 服从期望为 0,方差为 的正态分布。22、不同的随机扰动项之间不存在序列相关。3、解释变量是非随机的,与随机扰动项不相关。4、揭示变量不存在共线性。当以上假定成立的前提下,y 的平均值或期望值依赖于自变量 , , ,1x23的变化而变化,称之为多元线性方程。 3210y4x得到的方程形式如下: 43210 xx2.3
19、多元线性回归模型的参数估计及求解跟一元线性回归方程一样,多元线性回归方程中的未知参数 0, 1, 2,3, 4仍然可以用最小二乘法来估计。即用因变量的观察值和估计值之间的离差平方和达到最小来求得 0, 1, 2, 3, 4令最 小31231210, iiieyQ把得到的数据带入上面的方程式 43210 xx选择的数据选择的是 2003 年、2005 年、2007 年、2009 年、2011 年及2012 年的数据带入方程式求得初步估计的方程式43210 432104321 62.5.9.4836.1294877.1. 得到如下的答案(求解过程略,答案保留两位小数)5.173486.2097.1
20、最后得到的预测方程式为 4321 5.17.486.3.092 xxy 第三章多元回归分析的建模与检验3.1 Excel 多元回归分析3.1.1 相关性分析:检测变量 , , , 与因变量 y 的相关性1x234x淘宝注册人数 与 y 的相关性检验:网络普及度与淘宝网交易总额的相关性检验:我国居民消费水平与淘宝交易的相关性检验:我国人均收入与淘宝交易的相关性检验:由以上四个散点图可知,其所有的点均落在了左上至右下的一条直线上,表明了数据之间存在完全正相关关系。根据 Excel 中的数据分析计算相关系数如下:以上是通过 excel 得出的相关系数的矩阵得到:0.991857 2yxr=0.9015901yxr3=0.965083 0.9579114yx由以上数据可以看出,各列之间存在正相关关系。即淘宝网注册人数 、1x我国网络普及度 、我国居民消费水平 和我国居民人均收入 与淘宝交易总2x3x4x额 y 存在正相关关系。线性回归分析运用 excel 对淘宝交易总额 y 与淘宝网注册人数 、我国网络普及度 、我国1x2x居民消费水平 和我国居民人均收入 进行回归分析,得到如下的结果:3x4x