1、1第一章 方差分析例 1、1977 年,美国的某项调查从三种受过不同教育类型的妇女中各分别抽取了 50 位全日制工作的妇女样本,她们的年收入(单位:千美元)数据整理后归纳如下:完成的学历年数 收入平均值 ( )X 2)(X初中(8 年)X1高中(12 年)X2大学(16 年)X37.89.714.0183524424707解: : = 0 1 2= 3:三组收入均值有显著差异1F = ,即组间均方/组内均方其中,组间自由度 =3-1=2,组内自由度 =(50-1)3=147 由于样本均值 =(7.8+9.7+14.0)/3=10.5所以组间偏差平方和 =50 =50*( + + )=1009
2、(-)2 2.720.823.52组内偏差平方和 = =1835+2442+4707=8984(-)2所以,F = 8.2548419 (2,147)=3.071009/28984/1470.05拒绝原假设;认为不同学历的妇女收入存在差异。例 2、月收入数据:男:2500,2550,2050,2300,1900女:2200,2300,1900,2000,1800如果用 Y 表示收入,哑变量 X 表示性别(X=1 为女性) ,计算 Y 对 X 的回归方程,并在 5的水平下检验收入是否与性别无关(先求回归系数的置信区间) 。 解:令Y= + X+12 根据最小二乘法,可知 = 2()()()2(1
3、)VAR( )= (2)2()(-)2= ()(22)(3)2计算如下: 收入与性别无关0收入与性别不完全无关1:Y 2500 2550 2050 2300 1900 2200 2300 1900 2000 1800X 0 0 0 0 0 1 1 1 1 1240 290 -210 40 -360 160 260 -140 -40 -240=2150 =0.5 , 根据公式1,得 =-220; ,即Y= -220X+2 1=2260 2260 根据公式2、3,得VAR( )= 156.35495772 24450n=10.,n-2=8;当df=8 时, =2.3060.05的0.05置信区间求解方法如下:2-2.036 =11.072( 261-257) 2257 ( 235-239) 2239 20.05(5)自由度 df=1*5=5;所以拒绝原假设,备择假设 成立,性别与希望看到的电视节目类型是有关联的。 1性 别频 次希望看到的节目类型性 别频 次希望看到的节目类型