1、假设检验(二)非参数检验假设检验的统计方法,从其统计假设的角度可分为两类:参数检验与非参数检验。上一节我们所介绍的 检验、 检验,都是参数检验。它们的共同特点是总体分布正态,并满足某些Zt总体参数的假定条件。参数检验就是要通过样本统计量去推断或估计总体参数。然而,在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检验。这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。非参数检验是通过检验总体分布情况来实现对总体参数的推断。非参数检验法与参数检验法相比,特点可以归纳如下:(1)非参数检验一般不需要严格的前提假设;(2)非参数检验特别适用于顺序资
2、料;(3)非参数检验很适用于小样本,并且计算简单;(4)非参数检验法最大的不足是没能充分利用数据资料的全部信息;(5)非参数检验法目前还不能用于处理因素间的交互作用。非参数检验的方法很多,分别适用于各种特点的资料。本节将介绍几种常用的非参数检验方法。一 检验2检验主要用于对按属性分类的计数资料的分析,对于数据资料本身的分布形态不作任何假设,所以从一定的意义上来讲,它是一种检验计数数据分布状态的最常用的非参数检验方法。 检验的方法主要包括适合性检验和独立性检验。2(一) 检验概述是实得数据与理论数据偏离程度的指标。其基本公式为:2(公式 119) ef202)(式中, 为实际观察次数, 为理论次
3、数。0ef分析公式可知,把实际观测次数和依据某种假设所期望的次数(或理论次数)的差数平方,除以理论次数,求出比值,再将 个比值相加,其和就是 。观察公式可发现,如果实际观n2察次数与理论次数的差异越小, 值也就越小。当 与 完全相同时, 值为零。20fe2值的特点为: 值具有可加性。 值永远不会小于零。 值的大小随着22实际次数与理论次数之差的大小而变化。利用 值去检验实际观察次数与理论次数的差异是否显著的方法称为 检验。2 2检验有两个主要的作用:第一,可以用来检验各种实际次数与理论次数是否吻合的问题,这类问题统称为适合性检验;第二,判断计数的两组或多组资料是否相互关联还是相互独立的问题,这
4、类问题统称为独立性检验。检验的具体步骤与 检验基本相同。2t第一,建立虚无假设。例如假定实测次数与理论次数无显著差异,差异仅由机会造成。第二,计算理论次数,并求出 值。2第三,统计推断。根据 数目和选定的显著性水平,查 值表得出超过实得 值的概df 22率。把概率的大小,作为接受或拒绝假设的依据。表 119 检验统计决断规则2值与临界值的比较2 值P 显 著 性 )05.,(df ).,(2f2)01.,(df2)01.,(df00.01 0.05 P0.01不 显 著显 著()极其显著()(二)适合性检验适合性检验是应用 检验方法的一种。它主要适用于检验实际观测次数与理论次数之检2查以是否显
5、著,它所面对的研究对象主要是一个因素多项分类的计数资料,所以又称为单因素分类 检验或单项表的 检验。适合性检验的种类主要有无差假设的适合性检验和实际次数22分布是否属于正态分布的适合性检验,下面逐一进行简要介绍。1 无差假设的适合性检验所谓无差假设是指各项分类的次数没有差异,理论次数完全按概率相等的条件计算,即理论次数= 总数分类项数例 1,随机抽取 70 名学生,调查他们对高中分文理科的意见,回答赞成的有 42 人,反对的有 28 人。问对分科的意见有无显著差异?解:此例只有两种分类。因此应有理论次数 =700.5=35(人)ef检验步骤:(1)建立假设: : , :0H30ef1Hef0(
6、2)计算 值:2=ef202)( 8.235)()4(2(3)统计推断。 首先确定自由度 , 检验的自由度一般等于分类项数减 1,本例df2=2 1 = 1。查 = 1 的 表, =3.84,故有 ,因此应在 0.05dfdf2)05.,1( 2)05.,1(显著性水平上保留虚无假设,拒绝备择假设。其结论为:学生对高中文理分科的态度的差异不显著。例 2,某大学某系的 46 位老年教师中,健康状况属于良好的有 15 人,中等的有 20 人,比较差的有 11 人,问该系老教师中三种健康状况的人数是否一样?解:此例有三种分类。因此应有理论次数 = = 18(人)ef346检验步骤:(1)建立假设:
7、:健康状况好、中、差三种人数相同0H:健康状况好、中、差三种人数不相同1(2)计算 值:2=ef20)( 4.318)()20(18)5( 22(3)统计推断。 首先确定自由度 ,本例 = 3 1 = 2。查 = 2 的 表,dffdf=5.99,故有 ,因此应在 0.05 显著性水平上保留虚无假设,拒绝备择)05.,2(2)05.,(假设。其结论为:该系老教师中,健康状况好、中、差三种人数无显著差异。2实际次数分布是否属于正态分布的适合性检验检验还可以通过将正态分布的概率转换为理论次数的数值,来检验某些实际次数分布是否属于正态分布。例 3,今对某校 100 名学生进行操行评定,分优、良、中、
8、差四等,评定结果为:优 19 人、良 39 人、中 35 人、差 7 人。试检验其分布的形式是否属于正态分布?解:检验步骤:(1)建立假设: :评定结果服从正态分布0H:评定结果不服从正态分布1(2)计算 值:2首先需求出理论次数。正态分布的各部分理论次数,是通过正态分布图中面积比率乘以总次数得出的。在正态分布情况下,正态曲线底边上3 之内几乎包含了全部量数,因此我们可将正态分布底线长度从3 至3 分为四个等分,每等分为 1.5 ,其面积比率为:第一等分(优)的面积:上限 3 ,下限为 1.5 。1.5 3 之间的面积比率为:0.49870.4332=0.0655,即 7%。第二等分(良)的面
9、积:位于 01.5 之间,其面积比率为 0.4332,即 43%。第三等分(中)的面积:位于 01.5 之间,其面积比率为 0.4332,即 43%。第四等分(差)的面积:位于1.5 3 之间的面积比率为:0.49870.4332=0.0655,即 7%。根据各等分的面积比率,乘以总人数,即可得出理论次数。如:优的人数为 7%100=7,良的人数为 43%100=43。同理可求出中的人数为 43,差的人数为 7。即优的 =7,良的ef=43,中的 =43,差的 =7。代入(公式 119)有:efefef2 43.27)(43)5()39(7)1( 222 (3)统计推断。 首先确定自由度 ,本
10、例 = 4 1 = 3。查 = 2 的 表,dffdf=7.81, = 11.345,故有 ,因此应在 0.01 显著性水平上拒绝)05.,(2)01.,3(2 2)0.,3(虚无假设,接受备择假设。其结论为:此评定结果不服从正态分布。(三)独立性检验独立性检验也是 检验的一个重要应用。如果想研究两个或两个以上因素之间是否具有2独立性,就可利用 独立性检验。独立性检验一般都采用表格的形式来显示观察结果,所以独立性检验也称为列联表分析。当检验对象只有两个因素而且每个因素只有两项分类的列联表就称为 22 列联表或四格表;而一个因素有 类,另一个因素有 类,这种表称之为 RCR表。本节只讨论二维列联
11、表的情况。C关于二维列联表的独立性检验,需注意几个问题:第一,独立性检验的虚无假设是二因素(或多元素)之间是独立的或无关联,被择假设是二因素(或多因素)自荐有关联或者说差异显著。一般多用文字叙述而很少用符号代替。第二,独立性检验的理论次数是直接由列联表所提供的数据推算出来的。如果用 表示Rif第 行的和, 表示第 列的和, 为所有数据值和,则第 行第 列的方格内的理论次数iCjfjNij为:(公式 1110)ffjiij CRe第三,二维列联表自由度与二因素各自的分类项数有关。设 为行分类项数(行数) ,R为列分类项数(列数) ,则自由度为: 。C )1(df122 列联表的独立性检验22 列
12、联表就是把样本按两种性质分组,并排成两行两列的表,它是最简单的列联表,简称为四格表。22 列联表用以进行两个组彼此独立互无关联的检验。独立性检验下面我们从样本的不同情况出发,分别介绍相应的检验方法。 独立样本的 22 列联表的独立性检验独立样本 4 格表的独立性检验,既可以用计算 的基本公式(公式 119)计算,也可用2下面的简捷公式计算:= (公式 1111)2)()(2dbcadbaN式中: 分别是四格表内的实计数。 dcba,表 1110 22 列联表的 值计算示意表2分 类 1 分 类 2 合 计分 类 1 a b +ab分 类 2 cd +cd合 计+ + N例 4,设有甲乙两区,欲
13、测验两区中学教学水平,各区随机抽取 500 名初三学生,进行统一试题的数学测验,其结果是:甲区及格学生为 475 人,不及格为 25 人;乙区及格学生 460 人,不及格为 40 人,问甲区中学与乙区中学的数学测验成绩的差异是否显著?解:检验步骤:(1)建立假设: :甲区中学与乙区中学数学测验成绩无显著差异0H:甲区中学与乙区中学数学测验成绩差异显著1(2)计算 值:2表 1111 甲区中学与乙区中学的数学测验成绩表及格人数 不及格人数 合 计甲 区475( )a25 ( )b500 ( + )ab乙 区460 ( )c40 ( )d500 ( + )cd合 计 935 ( + )a 65 (
14、 +b)d1000()dca根据简捷公式:= 3.68 25093650)247(1(3)统计推断。 首先确定自由度 ,本例 =(2-1) (2-1)=1,查 =1 的 表,dff df2=3.84,故有 ,因此应在 0.05 显著性水平上保留虚无假设,拒绝备择)05.,1(22)05.,1(假设。其结论为:甲区中学与乙区中学数学测验成绩无显著差异。例 5,随机抽取某校男生 250 名,女生 240,进行体育达标考核,结果如下表 问体育达标水平是否与性别有关?表 1112 体育达标考核情况表达 标 未 达 标 合 计男 15 20 35女 13 18 31合 计 28 38 66解:检验步骤:
15、(1)建立假设: :体育达标水平与性别无关0H:体育达标水平与性别有关1(2)计算 值:利用基本公式 ,其理论次数为:2ef202)(= 1ef85.463 15.0638121.221ef .72ef=2 06.85.17)(5.13)(5.20)(85.14)( 2222 (3)统计决断: 首先确定自由度 ,本例 =1,查 =1 的 表, =3.84,dffdf2)05.,1(故有 ,因此应在 0.05 显著性水平上保留虚无假设,拒绝备择假设。其结论为:2)05.,1(体育达标水平与性别无关。 相关样本的 22 列联表的独立性检验相关样本 22 列联表的独立性检验的简捷公式为:= (公式
16、1112)2cb2)(例 6,110 名教师培训普通话,培训 2 天前后两次测验通过情况如下表,问 2 天的训练是否有显著效果?表 1113 40 天前后两次测验通过情况表第 二 次 测 验 通 过 未 通 过通 过 41( )a26 ( )b第一次测验未通过 24( )c 19( )d解:检验步骤:(1)建立假设: :2 天训练无显著效果0H:2 天训练有显著效果1(2)计算 值:将上表中的数据代入(公式 1112) ,有:= =2cb2)(08.46)(2本例也可以用求理论次数的方法计算 值。同一组教师两次测验结果只涉及到 (第一2b次通过而第二次未通过者)和 (第一次未通过二第二次通过者
17、) 。根据虚无假设, 和 的c c理论次数均为 ,所以5246bfe=ef02)( 08.2)()(用简捷公式和用理论次数计算出的 值相同。使用时可任选一种。(3)统计决断: 首先确定自由度 ,本例 =1,查 =1 的 表, =3.84,dffdf2)05.,1(故有 ,因此应在 0.05 显著性水平上保留虚无假设,拒绝备择假设。其结论为:2)05.,1(2 天训练无显著效果。二符号检验顾名思义,符号检验是以正负号为依据所进行的假设检验方法,它是非参数检验中最简单的一种。(一)符号检验概述符号检验法是通过两个相关样本的每对数据之差的符号进行检验,从而比较两个样本的显著性。具体地讲,若两个样本差
18、异不显著,正差值与负差值的个数应大致各占一半。符号检验与参数检验中相关样本显著性 t 检验相对应,当资料不满足参数检验条件时,可采用此法来检验两相关样本的差异显著性。根据符号检验判断差异显著性时也要查表找出相应的临界值。但特别应注意的是在某一显著性水平下,实得的 值大于表中 的临界值时,表示差异不显著,这一点与参数检验时的统rr计量和临界值的判断结果不同。表 1114 单侧符号检验统计判断规则与临界值的比r较值P 显 著 性r05. 0.05 不 显 著 01.05.0.01 0.05P 显 著r01.0.01 极 显 著(二)符号检验的计算方法符号检验的具体检验方法因样本大小的不同而不同。1
19、小样本(N25)时的检验方法例 7,研究人员将三岁儿童经配对而成的实验组进行颜色试验教学,对照组不进行此种教学。后期测验得分如表 1115。问颜色教学是否有显著效果?表 1115 实验组和对照组测验得分比较表配 对 1 2 3 4 5 6 7 8 9 10 11 12实验组 1X18 20 26 14 25 25 21 12 14 17 20 19 得分对照验组214 20 23 12 29 18 21 10 16 13 17 25差 数 符 号 0 0 解:检验步骤:(1)建立假设: :颜色教学无显著效果0H:颜色教学有显著效果1(2)求差数并记符号:计算 与 每对数据的差数, “”的个数
20、=7, “”的个数X2 n=3,差数为 0 不予考虑。于是有: = + = 7 + 3 = 10。将 和 中较小的一个记为nn,本例 =3。r(3)统计决断:根据 = + = 7 + 3 = 10 及显著性水平,查符号检验表寻找 的临界 r值, =1,而实际的 =3, 有 。由于符号检验表是单侧检验表,进行双侧检验时,05.rrr05.其显著性水平应乘以 2。所以本例应在 0.10 显著性水平上保留虚无假设,拒绝备择假设。其结论为:颜色教学无显著效果。2 大样本( 25)时的检验方法N对于差值的正负号差异的检验本属于二项分布的问题,当样本容量较大即( 25)时,N二项分布近似于正态分布,因此可用 比率作为检验统计量。检验公式为:Z(公式 1113)2)5.0(Nr式中: 为 或 的数值, 为 与 之和。0.5 为校正数,当 时用rnn r2N0.5,r