1、1.1 回归分析的基本思想及其初步应用本周题目:回归分析的基本思想及其初步应用本周重点:(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法相关指数和残差分析。本周难点:(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.(2)掌握回归分析的实际价值与基本思想.(3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方和分解的思想;本周内容:一、基础知识梳理回
2、归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。求回归直线方程的一般步骤:作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系求回归系数 写出回归直线方程 ,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。建立回归模型的基本步骤是:确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).由经验确定回归方程的类型.按一定规则估计回归方程中的参数 (最小二乘法);得出结
3、论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等. 3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。4.残差变量 的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。可能存在非线性的函数能够更好地描述 与 之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。这种由于模型近似所引起的误差包含在中。(2)忽略了某些因素的影响。影响变量 的因素不只变量 一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高
4、的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在 中。(3)观测误差。由于测量工具等原因,得到的 的观测值一般是有误差的(比如一个人的体重是确定的数,不同的秤可能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在 中。上面三项误差越小,说明我们的回归模型的拟合效果越好。二、例题选讲例 1:研究某灌溉渠道水的流速 与水深 之间的关系,测得一组数据如下:水深 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10流速 1.70 1.79 1.88 1.95 2.03 2.10 2.1
5、6 2.21(1)求 对 的回归直线方程;(2)预测水深为 1.95 时水的流速是多少?分析:本题考查如何求回归直线的方程,可先把有关数据用散点图表示出来,若这些点大致分布在通过散点图中心的一条直线附近,说明这两个变量线性相关,从而可利用我们学过的最小二乘估计思想及计算公式求得线性回归直线方程。解:(1)由于问题中要求根据水深预报水的流速,因此选取水深为解释变量,流速为预报变量,作散点图:由图容易看出, 与 之间有近似的线性关系,或者说,可以用一个回归直线方程来反映这种关系。由计算器求得 。对 的回归直线方程为 。(2)由(1)中求出的回归直线方程,把 代入,易得。计算结果表示,当水深为 时可
6、以预测渠水的流速为 。评注:建立回归模型的一般步骤:(1)确定研究对象,明确两个变量即解释变量和预报变量;(2)画出散点图,观察它们之间的关系;(3)由经验确定回归方程类型(若呈线性关系,选用线性回归方程);(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差出现不随机的规律性,等等),若存在异常,则检查数据是否有误,或模型是否合适等。例 2:1993 年到 2002 年中国的国内生产总值(GDP) 的数据如下:年份 GDP1993 34634.41994 46759.41995 58478.11996 67884.61997
7、 74462.61998 78345.21999 82067.52000 89468.12001 97314.82002 104790.6(1)作 GDP 和年份的散点图,根据该图猜想它们之间的关系应是什么。(2)建立年份为解释变量,GDP 为预报变量的回归模型,并计算残差。(3)根据你得到的模型,预报 2003 年的 GDP,并查阅资料,看看你的预报与实际 GDP 的误差是多少。(4)你认为这个模型能较好地刻画 GDP 和年份的关系吗?请说明理由。解:(1)由表中数据制作的散点图如下:从散点图中可以看出 GDP 值与年份近线呈线性关系;(2)用 yt 表示 GDP 值,t 表示年份,根据截距
8、和斜率的最小二乘计算公式,得:从而得线性回归方程:残差计算结果见下表:GDP 值与年份线性拟合残差表年份 1993 1994 1995 1996 1997残差 -6422.269 -1489.238 3037.493 5252.024 4638.055年份 1998 1999 2000 2001 2002残差 1328.685 -2140.984 -1932.353 -1277.622 -993.791(3)2003 年的 GDP 预报值为 112976.360,根据国家统计局 2004 年统计,2003 年实际 GDP 值为117251.9,所以预报与实际相-4275.540;(4)上面建立
9、的回归方程的 R2=0.974,说明年份能够解释约 97%的 GDP 值变化,因此所建立的模型能够很好地刻画 GDP 和年份的关系。说明: 关于 2003 年的 GDP 的值来源,不同的渠道可能会有所不同。例 3:如下表所示,某地区一段时间内观察到的大于或等于某震级 x 的地震个数为 N,试建立回归方程表述二者之间的关系。震级 3 3.2 3.4 3.6 3.8 4 4.2 4.4 4.6 4.8 5.0地震数 28381 20380 14795 10695 7641 5502 3842 2698 1919 1356 973震级 5.2 5.4 5.6 5.8 6 6.2 6.4 6.6 6.
10、8 7 地震数 746 604 435 274 206 148 98 57 41 25 解:由表中数据得散点图如下: 从散点图中可以看出,震级 x 与大于该震级的地震次数 N 之间不呈线性相关关系,随着 x 的减少,所考察的地震数 N 近似地以指数形式增长.做变换 y=lgN,得到的数据如下表所示:x 3 3.2 3.4 3.6 3.8 4 4.2 4.4 4.6 4.8 5y 4.453 4.309 4.170 4.029 3.883 3.741 3.585 3.431 3.283 3.132 2.988x 5.2 5.4 5.6 5.8 6 6.2 6.4 6.6 6.8 7 y 2.87
11、3 2.781 2.638 2.438 2.314 2.170 1.991 1.756 1.613 1.398 x 和 y 的散点图如下: 从这个散点图中可以看出 x 和 y 之间有很强的线性相差性,因此可以用线性回归模型拟合它们之间的关系。根据截距和斜率的最小二乘计算公式,得:故线性回归方程为:相关指数 R20.997,说明 x 可以解释 y 的 99.7%的变化。因此,可以用回归方程描述 x 和 y 之间的关系。例 4:电容器充电后,电压达到 ,然后开始放电,由经验知道,此后电压 随时间 变化的规律公式 表示,观测得时间 时的电压 如下表所示:0 1 2 3 4 5 6 7 8 9 101
12、00 75 55 40 30 20 15 10 10 5 5试求电压 对时间 的回归方程。分析:由于两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系,我们可通过对数变换把指数关系变为线性关系,通过线性回归模型来建立 与 之间的非线性回归方程。解:对 两边取自然对数得,令 ,即 。 由所给数据可得0 1 2 3 4 5 6 7 8 9 104.6 4.3 4.0 3.9 3.4 2.9 2.7 2.3 2.3 1.6 1.6其散点图为:由散点图可知 与 具有线性相关关系,可用 来表示。经计算得:(最小二乘法), , 即。 所以, 。评注:一般地,有些非线性回归模型通
13、过变换可以转化为线性回归模型,即借助于线性回归模型研究呈非线性回归关系的两个变量之间的关系:(1)如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模;(2)如果散点图中的点的分布在一个曲线状带形区域,要先对变量作适当的变换,再利用线性回归模型来建模。本周练习:1.对具有相关关系的两个变量统计分析的一种常用的方法是( )A回归分析 B.相关系数分析 C.残差分析 D.相关指数分析2.在画两个变量的散点图时,下面叙述正确的是( )A预报变量在 轴上,解释变量在 轴上 B.解释变量在 轴上,预报变量在 轴上C.可以选择两个变量中任意一个变量在 轴上D.可以选择两个变量中任意一个变量
14、在 轴上3.两个变量相关性越强,相关系数 ( )A越接近于 0 B.越接近于 1 C.越接近于1 D.绝对值越接近 14.若散点图中所有样本点都在一条直线上,解释变量与预报变量的相关系数为( ) A0 B.1 C.1 D.1 或 15.一位母亲记录了她儿子 3 到 9 岁的身高,数据如下表:年龄(岁) 3 4 5 6 7 8 9身高( 94.8 104.2 108.7 117.8 124.3 130.8 139.0由此她建立了身高与年龄的回归模型 ,她用这个模型预测儿子 10 岁时的身高,则下面的叙述正确的是( )A.她儿子 10 岁时的身高一定是 145.83 B.她儿子 10 岁时的身高在
15、 145.83 以上C.她儿子 10 岁时的身高在 145.83 左右D.她儿子 10 岁时的身高在 145.83 以下6.两个变量有线性相关关系且正相关,则回归直线方程中, 的系数 ( ) A. B. C. D.7.两个变量有线性相关关系且残差的平方和等于 0,则( )A.样本点都在回归直线上 B.样本点都集中在回归直线附近C.样本点比较分散 D.不存在规律8.在建立两个变量 与 的回归模型中,分别选择了 4 个不同的模型,它们的相关指数 如下,其中拟合最好的模型是( )A.模型 1 的相关指数 为 0.98 B.模型 2 的相关指数 为 0.80C.模型 3 的相关指数 为 0.50 D.
16、模型 4 的相关指数 为 0.259.相关指数 。10.某农场对单位面积化肥用量 和水稻相应产量 的关系作了统计,得到数据如下:15 20 25 30 35 40 45330 345 365 405 445 450 455如果 与 之间具有线性相关关系,求出回归直线方程,并预测当单位面积化肥用量为时水稻的产量大约是多少?(精确到 )11.假设美国 10 家最大的工业公司提供了以下数据:公司 销售总额经 x1/百万美元 利润 x2/百万美元通用汽车 126974 4224福特 96933 3835埃克森 86656 3510IBM 63438 3758通用电气 55264 3939美孚 5097
17、6 1809菲利普 莫利斯 39069 2946克莱斯勒 36156 359杜邦 35209 2480德士古 32416 2413(1)作销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式;(2) 建立销售总额为解释变量,利润为预报变量的回归模型,并计算残差;(3) 你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由。参考答案:A B D B C A A A910.由于问题中要求根据单位面积化肥用量预报水稻相应的产量,因此选取单位面积的化肥用量为解释变量,相应水稻的产量为预报变量,作散点图: 由图容易看出, 与 之间有近似的线性关系,或者说,可以用一个回归直线方程来反映这种关系。由计算器求得 。对 的回归直线方程为 ( *)。由(*)中求出的回归直线方程,把 代入易得 。计算结果表示,当单位面积化肥用量为 时水稻的产量大约是 .11(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:由于散点图中的样本点基本上在一个带形区域分布,猜想销售总额与利润之间呈现线性相关关系;(2)由最小二乘法的计算公式,得:
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。