1、第十四章 直线回归分析Simple linear regression analysis,Regression 释义,2019/7/6,直线回归分析,3,第十四章 直线回归分析,直线回归分析回归模型的一般形式 回归分析的步骤回归分析的应用条件 残差分析直线回归分析的应用回归分析应注意的问题直线回归与相关分析的区别和联系,2019/7/6,直线回归分析,4,一、直线回归分析,线性(直线)相关:分析两个变量的相关关系的方向及密切程度的统计方法欲分析两个变量在数量上的依存关系或者由一个易测变量推测另一个难测变量,采用回归分析。简单直线(线性)回归:涉及一个应变量和一个自变量多重直线(线性)回归:涉及
2、一个应变量和多个自变量例:体重与体表面积、胰岛素水平与血糖水平用身高、体重、肺活量估计心室输出量,2019/7/6,直线回归分析,5,一、直线回归分析,回归模型的一般形式直线回归分析的步骤直线回归分析的条件残差分析,2019/7/6,直线回归分析,6,(一) 回归模型的一般形式,例14.1 某研究欲探讨男性腰围与腹腔内脂肪面积的关系,对20名男性志愿受试者测量其腰围(cm),并采用核磁共振法测量其腹腔内脂肪面积(cm2),结果如教材188页表14.1所示。试建立腹腔内脂肪面积(y)和腰围(x)的直线回归方程。,散 点 图,2019/7/6,直线回归分析,8,(一) 回归模型的一般形式,若描述男
3、性腰围和腹腔内脂肪面积在数量上的依存关系 (回归分析),应变量为腹腔内脂肪面积,自变量为腰围。y 表示应变量,因变量,响应变量 (dependent variable, response variable) x 表示自变量,解释变量,预测因子 (independent variable, explanatory variable,predictor)用数学上的二元一次方程形式表示直线回归模型,2019/7/6,直线回归分析,9,(一) 回归模型的一般形式,总体回归模型表示为:样本回归模型表示:,2019/7/6,直线回归分析,10,(一) 回归模型的一般形式,a 的意义a 截距、常数项(int
4、ercept, constant)x=0 时,y的估计值 a 的单位与y 值相同当x 可能取0时,a 才有实际意义。,2019/7/6,直线回归分析,11,(一) 回归模型的一般形式,b 的意义b 斜率(slope) b 的单位为 (y 的单位 / x的单位) b0,直线从左下方走向右上方,y随 x 增大而增大; b0,直线从左上方走向右下方,y 随 x 增大而减小; b=0,表示直线与 x 轴平行,x 与y无直线关系在回归分析中,将称为回归系数(regression coefficient),2019/7/6,直线回归分析,12,(一) 回归模型的一般形式,回归系数b :描述y与x在数量上的
5、依存关系b 表示x 每增加(减)一个单位,y平均改变b个单位 例:17岁儿童以年龄(岁)估计体重(Kg)的回归方程为例:以凝血酶浓度(单位/毫升)估计凝血时间(秒)的回归方程为,2019/7/6,直线回归分析,13,(一) 回归模型的一般形式,的意义给定x 时,y 的估计值给定x 时,y 的平均值(总体均数的点估计)举例,2019/7/6,直线回归分析,14,(二) 直线回归分析的基本步骤,绘制散点图(观察是否有直线趋势、异常点)估计回归参数,列出回归方程对回归方程进行假设检验解释回归系数的统计学意义评价回归方程的拟合效果,2019/7/6,直线回归分析,15,2019/7/6,直线回归分析,
6、16,(二) 直线回归分析的基本步骤,绘制散点图(观察是否有直线趋势、异常点),2019/7/6,直线回归分析,17,(二) 直线回归分析的基本步骤,估计回归参数,列出回归方程求解a、b,实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。最小二乘法原理估计残差(residual)或剩余即实测值y与假定回归线上的估计值 的纵向距离 最小二乘法(least sum of squares):回归的残差平方和最小,即各实测点至直线的纵向距离的平方和最小。,2019/7/6,直线回归分析,19,(二)直线回归分析的基本步骤,估计回归参数,列出回归方程最小二乘法原理估计的回归直线必过点公式为可
7、使用计算器计算或软件计算,2019/7/6,直线回归分析,21,2019/7/6,直线回归分析,22,(二)直线回归分析的基本步骤,对回归方程进行假设检验方差分析回归系数的检验0,推断是否 =0 ,若 =0,则回归关系不存在。 H0: 0,无直线回归关系; H1: 0,有直线回归关系;,2019/7/6,直线回归分析,23,(二) 直线回归分析的基本步骤,方差分析将应变量 y 的总变异划分成两部分,一部分是由直线回归所致的变异,另一部分是由残差所致的变异总的离均差平方和相应划分为两部分总的自由度相应划分为两部分,2019/7/6,直线回归分析,24,The total variation of
8、 Y,x,P (x,y),y,2019/7/6,直线回归分析,25,y 的总变异(离均差平方和)分解,总变异: (sum of squares about the mean of y)剩余(残差)的变异: (sum of squares about regression)回归的贡献,回归平方和: (sum of squares due to regression),2019/7/6,直线回归分析,26,y 的自由度分解,总的自由度:n-1回归自由度:1剩余自由度:n-2,2019/7/6,直线回归分析,27,(二) 直线回归分析的基本步骤,方差分析,2019/7/6,直线回归分析,28,201
9、9/7/6,直线回归分析,29,(二) 直线回归分析的基本步骤,回归系数的检验,2019/7/6,直线回归分析,30,2019/7/6,直线回归分析,31,2019/7/6,直线回归分析,32,(二) 直线回归分析的基本步骤,在散点图上绘制回归直线,2019/7/6,直线回归分析,33,(二) 直线回归分析的基本步骤,解释回归系数的统计学意义,2019/7/6,直线回归分析,34,(二) 直线回归分析的基本步骤,评价回归方程的拟合效果剩余标准差:剩余标准差反映的是扣除 x 对 y 的直线影响后y的变异剩余标准差越小,回归模型的拟合效果越好,2019/7/6,直线回归分析,35,(二) 直线回归
10、分析的基本步骤,评价回归方程的拟合效果决定系数(确定系数):R2决定系数反映的是回归引起的变异占y总变异的比重决定系数越大(越接近1),回归的拟合效果越好R2=0.581,2019/7/6,直线回归分析,36,(二) 直线回归分析的基本步骤,绘制散点图(观察是否有直线趋势、异常点)估计回归参数,列出回归方程对回归方程进行假设检验解释回归系数的统计学意义评价回归方程的拟合效果,2019/7/6,直线回归分析,37,举 例,试对14名4060岁健康妇女的体重(Kg)与基础代谢(KJ/d)进行回归分析,2019/7/6,直线回归分析,38,举 例,绘制散点图,2019/7/6,直线回归分析,39,举
11、 例,建立回归方程,假设检验(t 检验) 及 结果解释,假设检验(t 检验) 及 结果解释,2019/7/6,直线回归分析,42,评价回归方程的拟合效果,2019/7/6,直线回归分析,43,(三) 直线回归分析的条件,线性(linear):因变量y与自变量x呈直线关系独立(independent):各观察值间相互独立正态性(normality):给定x,y 的残差服从正态分布等方差性(equal variance):在自变量x的取值范围内,不论x取何值,y都具有相同的方差。,2019/7/6,直线回归分析,45,(四) 残差分析,残差分析作用(直观图示)评价资料是否符合回归分析的条件识别异常
12、点了解资料和回归模型之间的关系,2019/7/6,直线回归分析,46,残 差 图,2019/7/6,直线回归分析,48,二、直线回归分析的应用,预测和估计回归分析中的区间估计总体回归系数的置信区间估计给定xxp时,y 的总体均数的置信区间估计给定xxp时,个体y值的容许区间估计,2019/7/6,直线回归分析,49,1、总体回归系数 的可信区间估计,根据 t 分布原理估计:总体回归系数 置信区间,总体回归直线的95的置信带,2019/7/6,直线回归分析,51,二、直线回归分析的应用,复习总体均数的置信区间: 均数界值标准误个体的容许区间(参考值范围): 均数界值标准差,2019/7/6,直线
13、回归分析,52,2、 的置信区间估计,样本 总体y的均数给定x时y的均数 (y的条件均数),根据 t 分布原理根据:,2019/7/6,直线回归分析,53,3、个体y的预测值的容许区间估计,给定x 时, y 值的容许区间( y 值可能的变动范围)。,y个体值95预测带,2019/7/6,直线回归分析,55,2019/7/6,直线回归分析,56,2019/7/6,直线回归分析,57,2019/7/6,直线回归分析,58,2019/7/6,直线回归分析,59,2019/7/6,直线回归分析,60,三、回归分析应注意的问题,作回归分析应有实际意义进行回归分析时,应先绘制散点图进行回归分析时,应避免超
14、出自变量的取值范围,任意外延残差图是考察是否满足回归分析条件的简单有效的方法,2019/7/6,直线回归分析,61,四、直线回归与相关的区别与联系,区别相关、回归分析的应用不同相关表示相互关系,两变量的关系是平行的;回归表示两变量在数量上依存关系,自变量与因变量关系。对资料的要求不同相关要求双变量正态分布,回归分析条件(4个)当x和y都是随机的,可以进行相关和回归分析;当y是随机的(x是控制的),理论上只能作回归而不能作相关分析统计量的计算、意义不同r没有单位,b有单位;取值范围不同;计算不同; 意义不同,2019/7/6,直线回归分析,62,联系均表示直线关系;符号相同:共变方向一致;假设检验结果等价(四种方法);一定程度上,可相互解释。,四、直线回归与相关的区别与联系,2019/7/6,直线回归分析,63,根据数据信息,回答:能否分析标准品lgA浓度与火箭电泳高度的相关关系?能否进行两者的回归分析?,2019/7/6,直线回归分析,64,2019/7/6,直线回归分析,65,小 结,直线回归分析回归模型的一般形式 回归分析的步骤回归分析的应用条件 残差分析直线回归分析的应用回归分析应注意的问题直线回归与相关分析的区别和联系 作业:思考与练习132页 第1、2题,