1、线性相关和回归赵耐青在实际研究中,经常要考察两个指标之间的关系,即:相关性。现以体重与身高的关系为例,分析两个变量之间的相关性。要求身高和体重呈双正态分布,既:在身高和体重平均数的附近的频数较多,远离身高和体重平均数的频数较少。样本相关系数计算公式(称为 Pearson 相关系数) : )()(22 YXLYXr (1)1. 考察随机模拟相关的情况。显示两个变量相关的散点图程序 simur.ado(本教材配套程序,使用见前言) 。命令为 simur 样本量 总体相关系数 如显示样本量为 100,=0 的散点图本例命令为 simur 100 0如显示样本量为 200,=0.8 的散点图本例命令为
2、 simur 200 0.8y1y2-4 -2 0 2 4-4-202如显示样本量为 200,=0.99 的散点图本例命令为 simur 200 0.99y1y2-4 -2 0 2-2-1012y1y2-4 -2 0 2 4-4-2024如显示样本量为 200,=-0.99 的散点图本例命令为 simur 200 -0.99y1y2-4 -2 0 2 4-4-2024例 1. 测得某地 15 名正常成年男子的身高 x(cm) 、体重 y(kg)如试计算 x 和 y 之间的相关系数 r 并检验 H0: 0 vs H1: 0。=0.05数据格式为X Y171.0 58.0176.0 69.0175
3、.0 74.0172.0 68.0170.0 64.0173.0 68.5168.0 56.0172.0 54.0170.0 62.0172.0 63.0173.0 67.0168.0 60.0171.0 68.0172.0 76.0173.0 65.0Stata 命令 pwcorr 变量 1 变量 2 变量 m,sig本例命令 pwcorr x y,sigpwcorr x y,sig| x y-+-x | 1.0000 |y | 0.5994 1.0000 | 0.0182|Pearson 相关系数 =0.5994,P 值=0.0182 |t| = 0.0080stata 计算结果与手算的结
4、果一致。结论为身高与体重呈正相关,并且有统计学意义。直线回归例 2 为了研究 3 岁至 8 岁男孩身高与年龄的规律,在某地区在 3 岁至 8 岁男孩中随机抽样,共分 6 个年龄层抽样:3 岁,4 岁,8岁,每个层抽 10 个男孩,共抽 60 个男孩。资料如下:60 个男孩的身高资料如下年龄 3 岁 4 岁 5 岁 6 岁 7 岁 8 岁92.5 96.5 106.0 115.5 125.5 121.597.0 101.0 104.0 115.5 117.5 128.5身高96.0 105.5 107.0 111.5 118.0 124.096.5 102.0 109.5 110.0 117.0
5、 125.597.0 105.0 111.0 114.5 122.0 122.592.0 99.5 107.5 112.5 119.0 123.596.5 102.0 107.0 116.5 119.0 120.591.0 100.0 111.5 110.0 125.5 123.096.0 106.5 103.0 114.5 120.5 124.099.0 100.0 109.0 110.0 122.0 126.5平均身高 95.4 101.8 107.6 113.1 120.6 124.0由于男孩的身高与年龄有关系,不同的年龄组的平均身高是不同的,由平均身高与年龄作图可以发现:年龄与平均身高
6、的点在一条直线附近。ageheight Fited values2 4 6 8901010120130考虑到样本均数存在抽样误差,故有理由认为身高的总体均数与年龄的关系可能是一条直线关系 ,其中 y 表示身高,x 表xy示年龄。由于身高的总体均数与年龄有关,所以更正确地标记应为 xy|x表示在固定年龄情况下的身高总体均数。上述公式称为直线回归方程。其中为回归系数( regression coefficient) ,或称为斜率(slope) ;称为常数项(constant) ,或称为截距(intercept) 。回归系数 表示 x 变化一个单位 y 平均变化 个单位。当 x 和 y 都是随机的,
7、x、y 间呈正相关时 0,x、y 间呈负相关时 F = 0.0000Residual | 447.467619 58 7.71495895 R-squared = 0.9306-+- Adj R-squared = 0.9294Total | 6445.18333 59 109.240395 Root MSE = 2.7776-y | Coef. Std. Err. t P|t| 95% Conf. Interval-+-x | 5.854286 .2099654 27.88 0.000 5.433994 6.274577_cons | 78.18476 1.209202 64.66 0.00
8、0 75.76428 80.60524-得到回归系数 b=5.854286,常数项 a=78.18746,回归系数的检验统计量 tb=27.88,P 值chi2-+-e | 0.459 0.441 1.18 0.5534P 值=0.55340.05 ,可以认为残差呈正态分布。所建立的回归方程是否有意义,仅凭借假设检验的结论或 R2 的大小还不能充分说明问题。残差 的大小直接反应回归方程的Ye优劣,经常采用图示的方法,以 e 做纵轴, 为横轴作图来考察残差的变化,如果残差比较均匀地散布在 e=0 的周围,没有明显的散布趋势和明显的离群点,则说明所建回归方程比较理想,否则要借助统计软件做进一步诊断。graph 残差 预测值本例 graph e yy