1、 本科毕业论文 ( 20 届) 多元线性回归预测 所在学院 专业班级 信息与计算科学 学生姓名 学号 指导教师 职称 完成日期 年 月 I 摘要 回归分析是研究随机现象中变量之间关系的一种数理统计方法 , 被广泛的应用于社会经济现象变量之间的影响因素和关联的研究 . 由于客观事物的 联系错综复杂 , 经济现象的变化往往用一个变量无法描述 . 本篇论文 利用 了多元线性回归方程 对居民货币收入和居民人数与消费品零售额的关系进行预测 , 并借助 相应的 电脑 软件来计算回归分析求解操作过程中的数据 , 以提高预测的准确度 , 取得了不错的结果 . 关键词 : 多元 ; 回归分析 ; 最小二乘法 ;
2、 预测II Abstract Regression analysis is a mathematical statistics method of studying the relationship of random phenomenon variables. For the complex of contract of the objecting things, we can not use one variable to describe the change of the economic phenomenon. This paper uses the multiple linear
3、regression equation to forecast the relation of the income of the residents, the number of the residents, and the retail sales of consumer goods, and It also uses the appropriate computer software to calculate the data in the process of regression analysis solution in order to improve the accuracy o
4、f forecast, and gets a good result. Keywords: Multiple; Linear regression; Least square method; Forecast III 目录 摘要 .I Abstract . II 1 前言 . 1 2 线性回归模型 . 3 2.1 一元线性回归模型 . 3 2.2 多元线性回归模型 . 4 3 实际应用 . 8 4 小结 . 12 参考文献 . 13 致谢 . 错误 !未定义书签。 1 1 前言 在现实世界中 , 我们常与各种变量打交道 , 在解决实际问题过程中 , 我们常常会遇到多个变量同处于一个过程之中 ,
5、 它们之间互相联系 、 互相制约 . 所谓 回归分析( regression analysis)就 是 对具有相互联系的现象 , 根据其关系的形态 , 选择一个合适的数学式子 , 用来近似地表达变量间平均变化关系 . 这个数学式子 , 称为回归方程式 . 回归分析是 运用十分广泛 的数理统计方法 , 回归分析 按照涉及的自变量的多少 , 可分为一元回归分析和多元回归分析 ; 按照自变量和因变量之间的关系类型 , 可分为线性回归分析和非线性回归分析 . 如果在回归分析中 , 只包括一个自变量和一个因变量 , 而 且二者的关系可用一条直线近似表示 , 这种回归分析称为一元线性回归分析 . 如果回归
6、分析中包括两个或两个以上的自变量 , 且因变量和自变量之间是线性关系 , 则称为多元线性回归分析 . 回归分析最早是 19 世纪末期高尔登( Sir Francis Galton)所发展 . 高尔登是生物统计学派的奠基人 , 他的表哥达尔文的巨著物种起源 问世以后 , 触动他用统计方法研究智力进化问题 , 统计学上的 “相关 ”和 “回归 ”的概念也是高尔登第一次使用的 . 在 1877-1889 的十多年里 , 高尔登得出了一个数学公式 . 这个公式用来度量孩子们的身高与父母平均身高之间的关系 . 根据统计测定 , 假如父母的身高是在人类平均身高上下 y 英寸 , 则他们的子女的平均身高是在
7、人类平均身高 23y 英寸 . 他发现了一个规律即子女的平均高度有回归到人类总平均高度的倾向 , 这就是著名的 “回归法则 ”. 1890 年 , 高尔登的学生皮 尔逊( Karl pearson)初次创用 “积矩相关系数 ”( productmoment coefficient of correlation) . 其后 , 这个方法广泛应用于各个领域 . 例如 , 1901 年霍克尔( R.H.Hooker)用积矩相关系数研究结婚率与贸易之间的关系 ; 俞尔( G.U.Yule)用此方法研究出出生率与死亡率同对外贸易间的关系 1 . 事实上 , 近年来 , 回归分析已经广泛的应用在经济学 ,
8、 医学 , 生物学等各个方面 . 例如 , 2009 年 , 有 人就将多元线性回归模型应用在对经济林产品需求的预测中 , 且取得不错的成果 2 . 本文主要是研究多元线性回归模型在居民货币收入和人数与消费品零售额之间的关系 , 并运用数学软件进行计算 , 取得了较好的结果 . 在用多元线性回归模型进行预测居民货币收入和人数与消费品零售额之间的关系时 , 可以为机构的决策提供一定的参考价值 , 有利于经2 济调控 , 也可使企业在产品的生产和销售上做出更科学合理的决策 . 3 2 线性回归模型 2.1 一元线性回归模型 定义 2.1 一元线性回归 是指一个因变量只与一个自变量有依从关系 , 它
9、们之间关系的形态表现为具有直线趋势 . 在分析时 , 首先可以作散点图以判定变量之间的关系是否直线型的 . 如果是直线型的 , 再配合回归直线来表达变量间平均变化关系 . 定义 2.2 直线方程式 : Y a bX , (2.1) 为 Y 对 X 的回归直线 . 其中直线的斜率 b 称为回归系数 , 它表示当 X 增加一个单位时 Y 的平均增加量 , 说明存在回归关系的两个变量间的数量关系 . a 是直线方程中的常数项 . a 和b 统称参数 . 现在我们讲回归方程式的确定方法 3 . 若用 ( ,iiXY)表示 n 组观察资料 , 任何一条直线的方程式为 : i iY a bX . (2.2
10、) 根据上述方程式 , 由每一个观察资料 iX 的数值即可以求得相应的 iY 的数值 , 这些数值我们称为理论数值 , 实际值与理论值之间存在误差 , 设误差为 i , 则 ii i i iY Y Y a bX . (2.3) 而 n 个观察值所引起的误差的总和组成总误差 , 通常是应用最小二乘法原则使总误差的平方和最小 . 设以 Q 代表误差的平方总和 , 则 22i i iQ Y a b X . (2.4) 根据数学分析中求极值的原理 , 要使 Q 为最小 , 只需在( 2.4)式中分别对 a 和 b 求偏导 , 并令其等于零即可 . 2 ( ) 0iiQ Y a b Xa . (2.5)
11、 4 2 ( ) 0i i iQ X Y a b Xb . (2.6) (2.5)与 (2.6)两式可以改写为 : na b X Y. (2.7) 2a X b X X Y . (2.8) 以上两个方程式称为规范方程式 (normal equations). 根据两个规范方程式求得 a 和 b数值 . 以此代入 (2.1)式中即得线性回归方程式 . 方程式中的 a 和 b 之值计算如下 : 22,.YXabnnXYXYnbXXn (2.9) 将式( 2.9)进一步化简 , 可以得出以下公式 : 22222,( ) ( ).X Y XY Xan X XXYXYnbXXn . (2.10) 2.2
12、 多元线性回归模型 上面我们讲到 , 一元线性回归是指 一个因变量只与一个自变量有依从关系 , 它们之间关系的形态表现为具有直线趋势 . 这是最简单的情况 . 但在实际问题 , 影响因变量的因素不是一个而是多个 , 那么我们就必须研究多变量的情况 . 定义 2.3 如果回归分析中包括两个或两个以上的自变量 , 且因变量和自变量之间是线性关系 , 则称为多元线性回归分析 . 多元线性回归分析的原理与简单线性回归分析的原理相同 , 但在计算上却要复杂的多 . 现在我们先着重讨论两个自变量的线性回归问题 , 其方程式为 : 1 1 2 2Y a b X b X . (2.11) 5 上述方程式在几何
13、上表示一个平面 , 因此也称 Y 为 12,XX的回归面 , 其中 a 为常数项 , 而 1b , 2b 分别称为 Y 对 1X , 2X 的回归系数 . 在多元回归中 , Y 对某一自变量的回归系数表示当其他自变量都固定时 , 该自变量变动一个单位时 Y 的平均变动量 . 例如 , 在 (2.11)式中1b 表示当 2X 固定 , 而自变量 1X 变动一个单位时 , Y 的平均变动量 . 2b 表示当 1X 固定 , 而自变量 2X 变动一个单位时 , Y 的平均变动量 . 这些系数称为多元回归系数 (coefficient of multiple regression) 48 . 确定 (
14、2.11)式中的 a , 1b , 2b 的数值 , 仍用最小二乘法 , 使误差平方和为最小 . 因为有三个参数需要确定 , 所以有三个规范方程式 . 设 221 1 2 2( ) ( ) .Q Y Y Y a b X b X (2.12) 用偏导数的方法使 120,0,0.QaQbQb(2.13) 求得 3 个规范方程式如下 : 1 1 2 221 1 1 2 1 2 122 1 1 2 2 2 2,.na b X b X Ya X b X b X X X Ya X b X X b X X Y . (2.14) 有上述( 2.14)式 , 可得 : 1 1 2 2Y b X b Xa n .
15、 (2.15) 将 a 的数值代入( 2.14)中 , 可得以下方程式 : 6 1 1 2 2 21 1 1 2 1 2 121 1 2 22 1 1 2 2 2 2( ) ,( ) .Y b X b X X b X b X X X YnY b X b X X b X X b X X Yn .(2.16) 即21 1 1 2 1 2 21 1 2 1 2 122 1 1 2 2 2 21 1 2 2 2 2() ,() .Y X b X b X X b X b X X X Yn n nY X b X X b X b X X b X X Yn n n (2.17) 21 1 2 121 1 1
16、2 2 121 2 2 221 2 1 2 2 2() ,() .X X X Y XX b X X b X Yn n nX X X Y XX X b X b X Yn n n (2.18) 解以上方程就可以求得 1b , 2b 之值 , 进而求得回归方程式如下 : 1 1 2 2Y a b X b X . (2.19) 以上方法可以推广到多个自变量的情况 , 设因变量 Y 受 n 个自变量 1X , 2X , , nX 的影响 , 根据实际资料 , Y 与 1X , 2X , , nX 之间存在线性函数关系 , 其回归方程式为 : 0 1 1 2 2 nnY a b X b X b X , (2.20) 0a 为常数项 , ib 称为 Y 对 iX 的回归系数 ( 1,2,3 , )in . 根据最小二乘法 , 使 2 20 1 1 2 2 nnQ Y Y Y a b X b X b X . (2.21) 最小即可 . 欲使 Q 最小 , 分别对 (2.21)式中 0a , 1b , 2b , , nb 求偏导 , 使其等于零 , 因为