1、第十一章 线性相关与回归 变量间的关系一般来说,可分为两种:1.确定性关系:即 “ 函数关系 ” ,如或2.非确定性关系:如( 1)污染程度与污染源距离( 2)舒张压与年龄( 3)人的身高与体重( 4)药物剂量与动物死亡率回归与相关就是研究此类问题的统计方法第一节 直线回归 一、 “ 回归 ” 的由来F.Galton K.Pearson每对夫妇的平均身高(英寸)成年儿子的身高(英寸)二、线性回归基本概念当一个变量 X改变时,另一个变量 Y也相应地改变,此时称 X为自变量(independent variable),Y为应变量 (dependentvariable)。 自变量 X: 可随机变动亦
2、可人为取值。因(应)变量 Y: 被视为依赖于 X而变化的 反应变量。在 X的数值确定时按某种规律随机变动。 可见,各散点通常并不会恰好在一条直线上,但反映出两变量的线性趋势。我们可以假定,相对于 X各个取值 , 相应的 Y的总体均数位于一条直线上 ,与 X之间数量上的线性依存关系就称为线性回归。这样我们就可以用某个恰当的线性回归方程(linear regression equation)来描述 Y的总体均数依赖于 X的数值变化: 以 表示 的一个样本估计值,即 X确定时 Y的样本均数,样本回归方程的一般表达式可写为:三、直线回归方程的建立1.一般表达式:自变量当 取某一定值时,因变量 的平均估计值。截距,即当 时, 的平均 估计值 。斜率(回归系数):当 每改变一个单位时, 的平均改变量。