数学建模基础概率统计部分2回归分析.doc

上传人:da****u 文档编号:1077143 上传时间:2018-11-29 格式:DOC 页数:8 大小:218.50KB
下载 相关 举报
数学建模基础概率统计部分2回归分析.doc_第1页
第1页 / 共8页
数学建模基础概率统计部分2回归分析.doc_第2页
第2页 / 共8页
数学建模基础概率统计部分2回归分析.doc_第3页
第3页 / 共8页
数学建模基础概率统计部分2回归分析.doc_第4页
第4页 / 共8页
数学建模基础概率统计部分2回归分析.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、数学建模基础概率统计部分 2 回归分析第一节 一元线性回归(一)回归分析变量之间的关系在客观世界中是普遍存在的,这些关系一般来讲分为两类:1、 确定性的关系 :变量之间的关系可以用函数解析式表达出来。2、 统计相关关系 :由于偶然因素亦即随机因素的影响,一个变量 X(可以是一元的,也可以是多元的)给定了值 x 时,另一个变量 Y 的取值与 的概率x有关。 (Y 是一个随机变量)例如:正常人的年龄 X 与血压 Y 之间的关系。特点:回归分析虽然是结合随机性考虑变量之间的关系,但是变量的地位是确定的,视自变量的变量往往可以人为加以控制,成为非随机变量,而因变量才是随机变量。自变量与因变量是不可以颠

2、倒位置的,如年龄与血压。回归分析的主要内容有:1. 通过对观察或试验数据的处理,找出变量间相关关系的定量数学表达式-经验公式。即进行参数估计,并确定经验回归方程的具体形式;2.借助概率统计知识进行分析,判明所建立的经验公式的有效性;3.利用已建立的回归方程,在一定的置信度下,根据一个或几个变量的值,预报或控制另一个变量的取值;4.进行因素分析,找出影响一变量的各因素的主次。(二)一元线性回归在回归分析中最简单的一类是线性回归,首先解决一元线性回归问题。设随机变量 y 与变量 x 之间存在着某种关系,这里 x 是可以控制或可以精确观察到的变量,通常我们称之为控制变量或回归变量或自变量;而将 y

3、称之为响应变量或因变量。如果这两个变量之间存在着线性关系,利用它们的样本数据,建立并表述它们之间关系的数学模型,对模型进行统计检验,并利用这一模型进行预测和控制,就是一元线性回归。注:线性是可以拓广的,并不是只与的关系满足线性,有时将与的关系不是线性的,但是方程系数是线性的,这样的模型也属于线性回归分析。1数学模型设回归变量 x 与响应变量 y 之间有下面的数学结构式:(1)xy10其中 , 为未知参数, 为随机项。01若 i =1,2,n 为 y 与 x 的 n 对数据,则),(iyxi =1,2,n (2)iiix10为便于统计推断,变量 y 与 x 所建立的一元线性回归模型(2)要满足:

4、(1) 变量 y 与 x 之间存在着“真实的”线性相关关系。(2) 变量 x 为非随机变量。(3) 随机项 N (0, 2), i =1,2,n 且相互独立,即i:i ,j =1,2,njiji,0),cov(1、 回归系数:通过 i =1,2,n 得到的 , 的估计 成为回归iyx0110,系数。2、 一元线性回归方程: (经验公式)x103、 回归直线: 一元线性回归方程的图象。4、 回归值: i =1,2,niiy105、 y 对 x 的回归:对给定的 ,显然有 称此式为 y 对 x 的回归。x01Eyx6、 求 y 关于 x 的回归问题:利用样本来估计 Ey,即得到 ,所以回10归方程

5、其实反应的是自变量与因变量的平均值的关系。如图,1 2 3 4 5 6 7 8 9 10-0.500.511.522.5x轴y轴2参数 的估计01,平面上的直线有无穷多条,究竟哪一条是回归直线呢?我们说,回归直线就是在一切直线中最接近所有数对 的直线,也就是说,回归直线代表 y),(iyx与 x 的关系与实际数对的误差比任何其它直线与实际数据的误差都小,即回归方程的回归系数 应使总误差10,ni ixyQ1210)(),(达到最小:通常我们利用最小二乘法来求出 的估计,这是因为 Q 是,的非负二次型,故其极小值必存在。根据微积分的理论知道,只要求 Q 对01,的一阶偏导数,并令其为 0,求出

6、即可。 (可参考华东师大数学01,分析下册第 222 页)ni iiii xyQ1100 0)(2整理后得01121101221111()()()() ()niiiiiinni inn nnxii xyiiii iyi iiyxxyxlxxlxyxyyy 正 规 方 程 组解 方 程 组 后 得 到令001, ,xlx则 即 为 的 最 小 二 乘 估 计 。(下面说明的是求出的参数并不唯一,样本数据不同会不同,但是他是无偏估计)xxnixiixinixix lll DyllxyylN221111 1110 021211 )()(,cov,( )(),c()c),cov( ,(,) 、 、3.

7、 假设检验1、 回归方程的显著性检验:即检验 y 与 x 间是否存在“真实的”线性关系。主要有两种检验方法:(1)f 检验(2)相关系数 r 检验;(1)f 检验: 、 00121210)2,( )2,1()()(0: 0HHnFnFnyyHHiiinii (2)相关系数检验:相关系数能反应线性程度,相关系数越大,方程越显著,具体检验方法见教材;说明:计算 r 的值,根据其大小可以判断线性的强弱,可以查相关系数表。4. 拟合程度的测定1、 变量 y 的各观察值点聚在回归直线 周围的紧密程度,称作回归xy10直线对子样数据点的拟合程度。2、 拟合程度可用决定系数 来表示:2r(回归平方和与总离差

8、平方2211()()nnxyRi ii iT lSryy和之比) 、 niiEiR ERniininiTyS Syyy12121212)( )()()()1()1(2 2)( )()(22 11122 2110 rlllll lyxx yxyxyxyxyxy yxxniinii nii ii i 剩余平方和在 lyy确定的情况下,只与 r2 有关,又因为 0, lyy0,所以ESr21 且 r2越大则 越小,说明回归直线描绘的两变量之间的关系越精确,即ES拟合程度越高。 (决定系数越大越好)5. 估计标准误差决定系数 r2和相关系数 r 描述了回归直线对子样数据点的拟合程度,但没有表示出变量

9、y 的诸观察值 与回归直线 的绝对离差大小,而为了iy01iiyx了解预测的精度和控制的需要,有必要求得 2的估计。下面介绍的量可以弥补这一缺憾。定义)()(122 nSySEniiy( N (0, 2), i =1,2,n 且相互独立)iiy:则称 为变量 y 对 x 的最小二乘回归的估计标准误差, 的计量单位与2yS yS变量 y 的单位相同。 越小,表明误差越小。 可以证明 是 2的无偏估计。yS进一步还可以证明 是 2的一致估计。6. 利用回归方程进行预测所谓预测问题,就是在确定控制变量的某一个 x0值时,求相应的响应变量 y0的估计值。1、 是 y0的无偏预测。10xy分析: ,y

10、0 受随即因素的影响,但有10x001()Eyxy所以 是中心值。2、可以证明 y0的置信度为 1- 的预测区间为 ,其中0y22220120()(1,)()(,)()1() yniiyixFnStFxtnSn 注 : 可 以 证 明 , 因 此 又 可 以 写 为因此当 x0在 附近取值, n 又比较大时,y 0的置信度为 1 的预测区间近似为ySt)2(20实际应用时,常采用这一区间作为响应变量 y 相应于控制变量 x0的回归预测区间:= 0.05 时,y 0的 95%的预测区间为 20yS= 0.01 时,y 0的 95%的预测区间为 30yyS注:(1)建立回归预测方程时,子样数据不宜

11、过少,因为小子样也许不能真实反映变量之间的结构关系。(2)这种方法得到的预测是有一定局限性的,即 的选取不宜偏离 太大,越0xx大越不准确,从 中不难看到。7. 利用回归方程进行控制所谓控制问题,就是要求变量 y 的观察值以 1 的置信度落在一定范围内,如 ,而应该把变量 x 控制在何处。由前面置信区间可知 y0以 112,y的概率满足不等式:2 200100()1|,()|yixPytnSy故 只 要 由 不 等 式 组 反 解 出 即 可但反解上式比较困难,故在实际中,当 n 较大且 x0接近 时,上述不等式组近似为102 1020010122010 |(3)(.5). yyyyyy SS

12、Sxx 即或 解 出可 令 解 出由于是线性关系,所以 x0也应落在 与 之间。01x2易见,当 0 时,x 0的控制范围为 ;当 0 时,x 0的控制范围为1 ,1。02x注:1、只有当 时,所求控制区间才有意义,否则控制区间不存在;12y4yS(=0.05)由 , 可得 ,见教材概率论与数理统计吴赣昌012yS02yS4yS编 287 页2、当观察数据的数字比较大时,为简化计算,可将数据进行适当的变换:21dcydcx可以证明 对 的回归方程与 y 对 x 的回归方程的显著性是一样的。通过检y验后, 再将 , 分别换回 x ,y 即可。x注: 为任选的常数。12,cd(三)一元非线性回归问题在实际问题中,有时两个变量间的内在联系不是线性的,这时就要根据理论上的推导或以往的实际经验且根据试验数据作散点图选择恰当的曲线来拟和这些试验数据,从而得到经验公式。尽管有相当一部分曲线的经验公式是不容易求出的,但是下面这些类型的曲线是可以通过变量变换把非线性关系的函数关系化成线性函数,然后应用线性回归的计算步骤进行计算,确定函数中的未知参数。通常采用的能化为线性回归的曲线模型有: xbayxyxbay 1,11、 xbayexybeaySxye xyaxbaybxb ,116 loglog5 ln,n4 ll3 log,og2、 、 、图略。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。