1、第十一章 非参数检验 在社会研究中我们经常要采用定序尺度,但直到现在,我们都还没有机会讨论涉及到定序尺度的显著性检验。本章要讲述某些用于定序尺度的双样本检验。与以前所讲的检验不同,使用这类方法不需要对总体分布作任何事先的假定 (例如正态总体 )。同时从检验的内容来说,也不是检验总体分布的某些参数 (例如均值、成数、方差等 ),而是检验总体某些有关的性质,所以称为非参数检验。非参数检验,泛指 “对分布类型已知的总体进行参数检验 ”之外的所有检验方法。 Date 1与均值差等检验比较,非参数检验有什么优点呢?在对均值差进行 t检验时,不仅要有定距尺度的假定,还要有正态总体的假定。当然,对于大样本,
2、正态总体的假定可以放松。但正是对于小样本,这种假定最容易出问题。因此,在满足下面两条件之一时,我们期望用非参数检验代替均值差检验: 没有根据采用定距尺度,但可以安排数据的顺序 (即秩 ); 样本小且不能假定具有正态分布。由于非参数检验不能充分利用全部现有的资料信息。因此,如果有根据采用定距尺度,并且如果对于小样本能够假定其具有正态性,或对大样本能够放松对正态性假定的要求,一般宁愿使用均值差检验,而不用非参数检验。 Date 2非参数检验,无需做出经典统计所必要的关于分布的任何假设。唯一需要的假设是:全部数据或数据对都出自相同的基本总体,且取样是随机的、相互独立的。基于这种原因,非参数检验又称为
3、分布自由 (或无分布 )检验。 “无分布 ”不是指总体真的无分布,而是指虽有时对总体分布一无所知,但仍可以进行分析。不仅如此,这些很容易理解的方法还可以用于处理等级的资料和定性的信息。 Date 3很显然,如果把从一个正态总体中抽取的数据用分布自由来处理,其效果肯定不如相应的参数检验有力。我们一般用下述指标来确定非参数检验的 “效率 ” 。 式中的 n 0和 n分别是两种检验保证实现给定的 检验力 所需的样本容量。如果说某种非参数检验的检验效率为 95,就意味着这种非参数检验在使用 100个数据时的效力等于 t检验 (在正确模型条件下 )使用 95个数据的效力。 检验力又称检验势,它是用 1
4、或 1 (犯第二类错误的概率) 来定义的。也就是说,对于固定的样本容量,检验能够否定错误假设的能力越大,其相对检验力越大。Date 4“符号检验 ”是针对观察结果之差的符号来作估价的。在单一实验组的实验中,对于样本中每个个体的前测与后测,如果我们并不关心( X1 X0)的具体数值,而只关心是增大了还是减小了。具体来说,就是只研究差值 d 的符号,即若 X1 X0,记作 “+”;若 X1 X0,记作 “” ;若 X1 X0,删去。那么我们面对的就将是配对样本的 “符号检验 ”问题了。 “符号检验 ”并不要求配对样本出自同一个总体,重要的是各个对的结果要相互独立。 第一节 符号检验 Date 5符
5、号检验的零假设就是配对观察结果的差平均起来等于零:人们期望这些差中有一半小于零 (负号 ),而另一半大于零 (正号 ),因此符号检验就是对差分布之中位数为零的零假设检验。现将符号检验的零假设和备择假设表达如下H0: p (+) p () 0.5 H1:单侧检验 p (+) p () 或 p (+) p ()双侧检验 p (+)p ()很显然,符号检验就是先假设 p 0.5,按二项分布计算正号“+”出现次数之抽样分布,然后以样本中正号 “+”出现的次数 x 作为检验统计量。如果它是 B(x; n, 0.5)下的小概率事件,便否定对差分布之中位数为零的零假设,即认为两总体存在平均水平上的差别。由此
6、可见,符号检验是二项检验的一种实际应用。 Date 6例 假设我们观测 15个相配的对,获得两个差为零和 13个差不为零,其中有 11个正号, 2个负号,试在 2.5的显著性水平上进行单侧检验。 解 H0: p 0.5 H1: p (+) p ()由 0.025确定否定域,查二项分布表(附表 2)P (13; 13, 0.5) 0.000P (12; 13, 0.5) 0.002P (11; 13, 0.5) 0.010P (10; 13, 0.5) 0.035P (13) + P( 12) + P (11) 0.000 + 0.002 + 0.010 0.0120.025P (13) + P
7、 (12) + P (11) +P( 10) 0.012 + 0.035 0.0470.025所以否定域由 x等于 11, 12, 13组成。现检验统计量 x 11,所以零假设 p 0.5在 2.5显著性水平上被拒绝。 Date 7例 随机地选择 13个单位,放映一部描述吸烟有害于身体健康的影片,下表中的数字是各单位认为吸烟有害身体健康的职工的百分比,现试在 0.05显著性水平上,用符号检验检验实验无效的零假设。Date 8解 H0: p 0 5 H1: p (+) p ()由上例知, B(x; 13, 0.5)在 0.025显著性水平上,单侧检验( p 0.5)否定域由 x 由 11,12,
8、 13组成。观察前表知,在 13个相配的对中, 10个差为正号, 3个差为负号,即检验统计量 x 10。所以零假设 p 0.5在 2.5显著性水平上不能被拒绝。Date 9对比 例 10.3.1和 例 11.1.2可见,由于符号检验只计及差值 d 的符号,而没有计及差值 d的大小,所以有时用 t检验可以作出拒绝零假设的判定,如改用符号检验却往往不能作出这样的判定。因此说,符号检验效力较低。根据计算,就满足正态分布而言,符号检验法的效率是配对样本 t 检验的 63。即如果符号检验法需要样本容量为 100的话,那么 t检验法只需 n 63就可作出相同的检验。但符号检验运用于定类尺度,对总体分布又无需加以限制,所以就配对样本的显著性检验而言,其适应面是相当广的。像符号检验这样的非参数值验,在分布自由检验中称为简便检验 (或快速检验 )。 Date 10