1、 第十章 双样本假设检验及区间估计我们在掌握了单样本检验与估计的有关方法与原理之后,把视野投向双样本检验与估计是很自然的。双样本统计,除了有大样本、小样本之分外,根据抽样之不同,还可分为独立样本与配对样本。独立样本, 指双样本是在两个总体中相互独立地抽取的 。配对样本,指只有一个总体,双样本是由于样本中的个体两两匹配成对而产生的。配对样本相互之间不独立。 第一节 两总体大样本假设检验 为了把单样本检验推广到能够比较两个样本的均值的检验,必须再一次运用中心极限定理。下面是一条由中心极限定理推广而来的重要定理:如果从 和 两个总体中分别抽取容量为 n1 和 n2 的独立随机样本,那么两个样本的均值
2、差 的抽样分布就是 。与单样本的情况相同,在大样本的情况下(两个样本的容量都超过 50),这个定理可以推广应用于任何具有均值 1 和 2 以及方差 和 的两个总体。当 n1 和 n2 逐渐变大时, 的抽样分布像前面那样将接近正态分布。1大样本均值差检验 (1)零假设:H 0: 1- 2=D0(2)备择假设:单侧 H 1: 1- 2D0 双侧 H1: 1- 2 D0或 H1: 1- 2D0 双侧 H1: 1- 2 D0或 H1: 1- 2 D0 1X2 47.603.258.5921210 nDXZ0210:p(3)否定域:单侧 Z 双侧 Z /2 (4)检验统计量当 p1 和 p2 未知,须用
3、样本成数 和 进行估算时,分以下两种情况讨论: 若零假设中两总体成数的关系为 P1=P2 ,这时两总体可看作成数 P 相同的总体,它们的点估计值为 此时上式中检验统计量 Z 可简化为 若零假设中两总体成数 P 1P 2 ,那么它们的点估计值有 此时上式中 检验统计量 Z 为(5)判定例有一个大学生的随机样本,按照性格“外向”和“内向” ,把他们分成2121)(21 0210 )(nqpDpDpZ 1p22121 npnXp2121210)( nqpnqp11p 22p21021)(nqpnqpD两类。结果发现,新生中有 73属于“外向”类,四年级学生中有 58属于“外向”类。样本中新生有 17
4、1 名,四年级学生有 117 名。试问,在 0.01 水平上,两类学生有无显著性差异?第二节 两总体小样本假设检验与对单总体小样本假设检验一样,我们对两总体小样本假设检只讨论总体满足正态分布的情况。1. 小样本均值差假设检验(1) 当 和 已知时,小样本均值差检验,与上一节所述大样本总体均值差检验完全相同,这里不再赘述。(2) 和 未知,但假定它们相等时, 关键是要解决 的算式。现又因为 未知,所以要用它的无偏估计量 替代它。由于两个样本的方差基于不同的样本容量,因而可以用加权的方法求出 的无偏估计量,得 注意,上式的分母上减 2,是因为根据 和 计算 S1 和S2 时,分别损失了一个自由度,
5、一共损失了两个自由度,所以全部自由度的数目就成为(n1+ n22)。 于是有例为研究某地民族间家庭规模是否有所不同,各做如下独立随机抽样:民族 A:12 户,平均人口 6.8 人,标准差 1.5 人212212)21(XS1X2122nSSS)21(X21nS民族 B:12 户,平均人口 5.3 人,标准差 0.9 人问:能否认为 A 民族的家庭平均人口高于 B 民族的家庭平均人口( =0.05)?(假定家庭平均人口服从正态分布,且方差相等)t=2.97例 某市对儿童体重情况进行调查,抽查 8 岁的女孩 20 人,平均体重22.2 千克,标准差 2.46 千克;抽查 8 岁的男孩 18 人,平
6、均体重 21.3 千克,标准差 1.82 千克。若男女儿童体重的总体方差相等,问在显著性水平 5%上,该年龄男女儿童之体重有无显著差异? 2小样本方差比检验在实际研究中,除了要比较两总体的均值外,有时还需要比较两总体的方差。例如对农村家庭和城镇家庭进行比较,除了平均收入的比较外,还要用方差比较收入的不平均情况。此外,刚刚在小样本均值差的检验中曾谈到,当方差未知时,往往还假设两总体方差相等。因此,在总体方差未知的情况下,先进行方差比检验,对于均值差检检验也是具有一定意义的。设两总体分别满足正态分布 和 。现从这两个总体中分别独立地各抽取一个随机样本,并具有容量 n1,n2 和方差 S12 , S
7、 22 。根据第八章(8.22)式,对两总体样本方差的抽样分布分别有 根据本书第八章第四节 F 分布中的(8.25)式有 ),(2N),(2N)1(22121nSn)1(22nSn)11()1/()/( 222121 nFnS,由于 ,所以简化后,检验方差比所用统计量为: 当零假设 H0: 12 时,上式中的统计量又简化为:(3)否定域(参见下图)单侧 F(n11,n21) ,双侧 F/2(n11,n21)方差比检验,比起前面所介绍的检验有一个不同点,那就是无论是单侧检验还是双侧检验,F 的临界值都只在右侧。其原因是我们总是把 S12 和 S22 中的较大者放在分子上,以便使用者掌握。因此有
8、221SnS )1(/ 212211 nFS,)11(221 nnFSF,21SF21SF1 或者 1例 为了研究男性青年和女性青年两身高总体的方差是否相等,分别作了独立随机抽样。对男性青年样本有 n110, S12 30.8(厘米 2);对女性青年样本有 n28, S22 27.8(厘米 2),试问在 0.05 水平上,男性青年身高的方差和女性青年身高的方差有无显著性差异?解 据题意,对男性青年样本有 n1 10, S 12 30.8(厘米 2) 对女性青年样本有 n2 8, S 22 27.8(厘米 2)H0 : 12= 22 H1 : 12 22 计算检验统计量确定否定域,因为 0.05
9、,F/2(n11,n21)F0.025(9,7)4.821.08因而不能否定零假设,即在 0.05 水平上,我们不能说男性青年身高的方差和女性青年身高的方差有显著性差异。 第三节 配对样本的假设检验2.348.0101221 SnS .1.278222 08.18.32421SF配对样本,是两个样本的单位两两匹配成对,它实际上只能算作一个样本,也称关联样本。因此对它的检验,用均值差检验显然是不行的。因为 2 n 个样本单位(每个样本 n 个)不是全部独立抽取的。而如果把每一配对当作一个单位,在符合其他必要的假定条件下,统计检验与单样本检验相差无几。1单一实验组的假设检验 对于单一实验组这种“前
10、后”对比型配对样本的假设检验,我们的做法是,不用均值差检验,而是求出每一对观察数据的差,直接进行一对一的比较。如果采用“前测” “后测”两个总体无差异的零假设,也就是等于假定实验刺激无效。于是,问题就转化为每对观察数据差的均值 d 0 的单样本假设检验了。求每一对观察值的差,直接进行一对一的比较。设配对样本的样本单位前测与后测的观察数据分别是 X 0i 与 X 1i,其差记作 di d i X 1iX 0i如果假设两总体前测与后测无显著性差别,即 1 0 或者 。那么对取自这两个总体的配对大样本有对于大样本,当二总体的方差未知时,可以用样本标准差来近似。若为小样本则需用 t 分布,即对配对(小
11、)样本而言,其均值差的抽样分布将服从于自由度为(n1)的 t 分布。所以对单一实验组实验的假设检验,其检验统计量为 例 随机地选择 13 个单位,放映一部描述吸烟有害于身体健康的影片,下表中的数字是各单位认为吸烟有害身体健康的职工的百分比,试在 0.05 显著01Ndid ),0(2nNndi 22 )(1dnSid )1(1/0ntnSdt性水平上检检验实验无效的零假设。练习一:以下是经济体制改革后,某厂 8 个车间竞争性测量的比较。问改革后,竞争性有无增加?( 取 =0.05)t=3.176改革后 86 87 56 93 84 93 75 79改革前 80 79 58 91 77 82 7
12、4 66练习二:为了了解职工的企业认同感,根据男性 1000 人的抽样调查,其中有 52 人希望调换工作单位;而女性 1000 人的调查有 23 人希望调换工作,能否说明男性比女性更期望职业流动?( 取 =0.05)2一实验组与一控制组的假设检验单一实验组实验的逻辑,是把实验对象前测后测之间的变化全部归因于实验刺激。在社会现实生活进行的实际实验中,对象前测后测之间的变化,有时除了受到实验刺激外,还受到其他社会因素的作用。因而,配对样本的一实验组与一控制组之假设检验,要设法把实验变量的作用和额外变量的作用区分开来,然后就像对待单一实验组实验一样,把问题转化为零假设 d0 的单样本检验来处理。在一
13、实验组与一控制组的实验设计之中,对前测后测之间的变化,消除额外变量影响的基本做法如下: (1)前测:对实验组与控制组分别度量; (2)实验刺激:只对实验组实行实验刺激; (3)后测:对实验组与控制组分别度量; (4)计算消除了额外变量影响之后的 d i后测实验组前测实验组前测后测差实验组 后测控制组前测控制组前测后测差控制组 实验效应 di前测后测差实验组前测后测差控制组例 假定实施一种新教学法有助于提高儿童的学习成绩,现将 20 名儿童两两匹配成对,分成一实验组与一控制组,然后对实验组实施新教学法两年,下表列示了控制组与实验组前测后测的所有 10 组数据,试在 0.05 显著性水平上检验实验无效的零假设。3对实验设计与相关检验的评论 有了独立样本和非独立样本的认识,读者自然会提出什么时候使用配对样本以及什么时候不使用配对样本的问题。很显然,匹配样本损失了自由度,使用配对样本相当于减小了一半样本容量。这样做是不是得不偿失呢?答案是要看我们能否恰当地配对。 在配对过程中,最好用掷硬币的方式决定“对”中的哪一个归入实验组,哪一个归入控制组。从而使“对”内随机化。第四节 双样本区间估计