1、假设检验,在假设检验中,一般要设立一个原假设;而设立该假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾,从而否定这个假设。,假设检验,在多数统计教科书中(除了理论探讨之外),假设检验都是以否定原假设为目标。如否定不了,那就说明证据不足,无法否定原假设。但这不能说明原假设正确。,假设检验的过程和逻辑,首先要提出一个原假设,比如某正态总体的均值等于5(m=5)。这种原假设也称为零假设(null hypothesis),记为H0与此同时必须提出对立假设,比如总体均值大于5(m5)。对立假设又称为备选假设或备择假设(alternative hypothesis)记为记为H1或
2、Ha,假设检验的过程和逻辑,根据零假设(不是备选假设!),我们可以得到该检验统计量的分布;然后再看这个统计量的数据实现值(realization)属不属于小概率事件。也就是说把数据代入检验统计量,看其值是否落入零假设下的小概率范畴。如果的确是小概率事件,那么我们就有可能拒绝零假设,否则我们说没有足够证据拒绝零假设。,假设检验的过程和逻辑,注意:零假设和备选假设在我们涉及的假设检验中并不对称。检验统计量的分布是从零假设导出的, 因此, 如果有矛盾, 当然就不利于零假设了。不发生矛盾也不说明备选假有问题。,假设检验的过程和逻辑,检验统计量在零假设下,这个样本的数据实现值的概率称为p-值(p-val
3、ue)。显然得到很小p-值意味着小概率事件发生了。如果小概率事件发生,是相信零假设,还是相信数据呢?当然是相信数据。于是就拒绝零假设。但事件概率小并不意味着不会发生,仅仅发生的概率很小罢了。拒绝正确零假设的错误常被称为第一类错误(type I error)。,假设检验的过程和逻辑,不仅有第一类错误,还有第二类错误;那是备选零假设正确时反而说零假设正确的错误,称为第二类错误(type II error)。如要“接受零假设”就必须给出第二类错误的概率. 但对于目前面对的问题, 无法计算它.,假设检验的过程和逻辑,零假设和备选假设哪一个正确,这是确定性的,没有概率可言。而可能犯错误的是人。涉及假设检
4、验的犯错误的概率就是犯第一类错误的概率和犯第二类错误的概率。负责的态度是无论做出什么决策,都应该给出犯错误的概率。,假设检验的过程和逻辑,到底p-值是多小才能够拒绝零假设呢?也就是说,需要有什么是小概率的标准。这要看具体应用的需要。但在一般的统计书和软件中,使用最多的标准是在零假设下(或零假设正确时)抽样所得的数据拒绝零假设的概率应小于0.05(也可能是0.01,0.005,0.001等等)。,假设检验的过程和逻辑,这种事先规定的概率称为显著性水平(significant level),用字母a来表示。当p-值小于或等于a时,就拒绝零假设。所以,a是所允许的犯第一类错误概率的最大值。当p-值小
5、于或等于a时,我们说这个检验是显著的(significant)。,假设检验的过程和逻辑,归纳起来,假设检验的逻辑步骤为:第一: 写出零假设和备选假设;第二: 确定检验统计量;第三: 确定显著性水平a;第四: 根据数据计算检验统计量的实现值;第五: 根据这个实现值计算p-值;第六: 进行判断:如果p-值小于或等于a,就拒绝零假设,这时犯错误的概率最多为a;如果p-值大于a,就不拒绝零假设,因为证据不足。,假设检验的过程和逻辑,实际上,计算机软件仅仅给出p-值,而不给出a。这有很多方便之处。比如a=0.05,而假定我们得到的p-值等于0.001。这时我们如果如果采用p-值作为新的显著性水平,即a=
6、0.001,于是可以说,我们拒绝零假设,显著性水平为0.001。拒绝零假设时犯错误的概率实际只是千分之一而不是百分之五。在这个意义上,p-值又称为观测的显著性水平(observed significant level)。在统计软件输出p-值的位置,有的用“p-value”,有的用significant的缩写“Sig”就是这个道理。,假设检验的过程和逻辑,关于“临界值”的注:作为概率的显著性水平a实际上相应于一个检验统计量取值范围的一个临界值(critical value),它定义为,统计量取该值或更极端的值的概率等于a。也就是说,“统计量的实现值比临界值更极端”等价于“p-值小于a”。使用临界
7、值的概念进行的检验不计算p-值。只比较统计量的取值和临界值的大小。,假设检验的过程和逻辑,使用临界值而不是p-值来判断拒绝与否是前计算机时代的产物。当时计算p-值不易,只有采用临界值的概念。但从给定的a求临界值同样也不容易,好在习惯上仅仅在教科书中列出相应于特定分布的几个有限的a临界值(比如a=0.05,a=0.025,a=0.01,a=0.005,a=0.001等等),或者根据分布表反过来查临界值(很不方便也很粗糙)。 现在计算机软件都不给出a和临界值,但都给出p-值和统计量实现值,让用户自己决定显著性水平是多少。,假设检验的例子,例6.1(数据:sugar.txt, sugar.sav,
8、sugar.sas7bdat)一个顾客买了一包标有500g重的一包红糖,觉得份量不足,于是找到监督部门;当然他们会觉得一包份量不够可能是随机的。于是监督部门就去商店称了50包红糖;得到均值(平均重量)是498.35g;这的确比500g少,但这是否能够说明厂家生产的这批红糖平均起来不够份量呢?首先,可以画出这些重量的直方图(图6.1)。这个直方图看上去象是正态分布的样本。于是不妨假定这一批袋装红糖呈正态分布。,su=scan(D:/booktj1/data/sugar.txt);hist(su),假设检验的例子,检验统计量为(为什么用这个?),这次我们的假设检验问题就是, t.test(su,m
9、=500,alt=less) One Sample t-testdata: su t = -2.6962, df = 49, p-value = 0.004793alternative hypothesis: true mean is less than 500 95 percent confidence interval: -Inf 499.3749 sample estimates:mean of x 498.3472,SPSS,p-value = 0.004793=0.009586/2,假设检验的例子,例.汽车厂商声称其发动机排放标准的一个指标平均低于20个单位。在抽查了10台发动机之后
10、,得到下面的排放数据:17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。该样本均值为21.13。究竟能否由此认为该指标均值超过20?这次我们的假设检验问题就是,假设检验的例子,检验统计量为我们可以发现p-值为0.1243,因此,我们没有证据否定零假设(如果显著性水平小于它)。,为什么不能“接受零假设”,其实可以,比如下面两种情况:1. 备选假设也是单点分布,这时可以负责地算出犯第二类错误的概率。2. 贝叶斯检验情况(这是一种决策观点)但在经典统计中的绝大多数情况都不可以。,从一个例子看“接受零假设”,(数据 rice.sav)一个大米加工厂卖给
11、一个超市一批标明10kg重的大米。而该超市怀疑该厂家缺斤短两,对10包大米进行了称重,得到下面结果(单位:千克)9.93 9.83 9.76 9.95 10.07 9.89 10.03 9.97 9.89 9.87这里假定打包的大米重量服从正态分布。由于发生分歧,于是各方同意用这个数据进行关于大米重量均值m的t检验;以厂家所说的平均重量为10kg作为零假设,而以超市怀疑的份量不足10kg作为备选假设:,1.超市的检验,于是,超市、加工厂老板和该老板的律师都进行了检验。结果是:超市用全部数据进行t检验,得到拒绝零假设的结论。他们根据计算得到:样本均值为9.92kg,而p-值为0.0106。因此超
12、市认为,对于显著性水平a=0.05,应该拒绝零假设。,2. 加工厂老板的检验,大米加工厂老板只用2个数据,得到“接受零假设”的结论。大米加工厂老板也懂些统计,他只取了上面样本的头两个个数目9.93和9.83进行同样的t检验。通过对这两个数进行计算得到:样本均值为9.88kg, 而p-值为0.1257. 虽然样本均值不如超市检验的大, 但p-值大大增加。加工厂老板于是下了结论:对于水平a0.05,“接受零假设”,即加工厂的大米平均重量的确为10kg。,3.加工厂老板律师的检验,大米加工厂老板的律师用了全部数据,但不同的检验方法,得到“接受零假设”的结论。大米加工厂老板的律师说可以用全部数据。他利
13、用对于连续变量比例的检验,也就是关于中位数的符号检验(注意对于正态分布,对中位数的检验等价于对均值的检验)。根据计算,得到该检验的p-值为0.0547。所以这个律师说在显著性水平a=0.05时,应该“接受零假设”。还说,“既然三个检验中有两个都接受零假设,就应该接受。”,如何评价?,加工厂老板实际上减少了作为证据的数据,因此只得到“证据不足,无法拒绝零假设”的结论。但加工厂老板把“证据不足以拒绝零假设”改成“接受零假设”了。而且,从样本中仅选择某些数目(等于销毁证据)违背统计道德。 律师虽然用了全部数据,但用了不同的方法。他也只能够说“在这个检验方法下,证据不足以拒绝零假设”而不能说“接受零假
14、设”。另外,律师对超市用更有效的检验方法得到的“拒绝零假设”的结论视而不见,这也违背了统计原理。 对于同一个检验问题,可能有多种检验方法。但只要有一个拒绝,就应该拒绝。那些不能拒绝的检验方法是能力不足。用统计术语来说,是势(power)不足,或者效率(efficiency)低。,关于例6.7的总结,1.在已经得到样本的情况下,随意舍取一些数目是违背统计原理和统计道德的。这相当于篡改或毁灭证据。2.由于证据不足而不能拒绝零假设绝对不能说成“接受零假设”。如果一定要说,请给出你接受零假设所可能犯第二类错误的概率(这是无法算出的)。这是加工厂老板和律师所犯的错误。3.例中律师的检验和超市所做的检验都
15、针对同样的检验问题,但由于超市的检验方法比律师的检验更强大(或更强势,more powerful,更有效率,more efficient),所以超市拒绝了零假设,而律师的检验则不能拒绝。如果有针对同一检验问题的许多检验方法,那么,只要有一个拒绝,就必须拒绝。绝对不能“少数服从多数”,也不能“视而不见”。,以关于均值的t检验为例;实际上,只要零假设的均值和样本均值的确不一样,那么根据检验统计量的公式可以看出,如果样本量不断增大,就必然会拒绝零假设。当然,对于效率较低的检验,要拒绝零假设所需要的样本量较大。,关于正态性的检验,1.Shapiro正态性检验:原假设:数据来自正态性总体x=scan(“
16、sugar.txt”)Shapiro.test(x),关于正态性的检验,2.正态QQ图:用样本分位数与正态分位数做散点图。qqnorm(x)qqline(x),双正态总体均值差的检验,关于两个独立总体均值的差异的假设检验,双正态总体均值差的检验,例.(数据drug.txt)为检测某种药物对攻击性情绪的影响,对处理组的100名服药者和对照组的150名非服药者进行心理测试,得到相应的某指标.人们要检验处理组指标的均值是否大于对照组的均值.,双正态总体均值差的检验, t.test(x,y,alt=greater) Welch Two Sample t-testdata: x and yt = 0.9
17、4456, df = 231.72, p-value = 0.1729alternative hypothesis: true difference in means is greater than 095 percent confidence interval: -0.3742108 Infsample estimates:mean of x mean of y 8.60202 8.10200,成对样本的问题,例. (数据diet.txt)有两列50对减肥数据,分别是减肥前后的重量数据。人们希望比较50个人在减肥前后的重量。这样的两个样本,不能用前面的独立样本均值差的检验,因为每一个人减肥后
18、的重量都和自己减肥前的重量有关,所以不独立,但不同人之间却是独立的。 令所有个体减肥前后重量差的均值为 ,,成对样本的问题,t.test(xx,yy,alt=greater,pair=T) Paired t-testdata: xx and yyt = 3.355, df = 49, p-value = 0.0007694alternative hypothesis: true difference in means is greater than 095 percent confidence interval: 0.9405451 Infsample estimates:mean of th
19、e differences 1.88,总体比例的检验,例.对于电视节目,收视率是个重要的指标。一个对1500人的电话调查表明,在某一节目播出的时候,被访的正在观看电视的人中有23%的正在观看这个节目。现在想知道,这是否和该节目的制作人所期望的25%的收视率有显著不足。,总体比例的检验, binom.test(0.23*1500,1500,0.25,alt=less) Exact binomial testdata: 0.23 * 1500 and 1500number of successes = 345, number of trials = 1500, p-value =0.03837al
20、ternative hypothesis: true probability of success is less than 0.2595 percent confidence interval: 0.0000000 0.2485905sample estimates:probability of success 0.23,两个总体比例差的检验,例.如果节目甲的样本收视率为20%,样本量为1200.节目乙的收视率为21%,样本量为1300.是不是节目甲的收视率就真的低于节目乙?,两个总体比例差的检验, binom.test(c(0.2*1200,0.21*1300),c(1200,1300),
21、alt=less) Exact binomial testdata: c(0.2 * 1200, 0.21 * 1300)number of successes = 240, number of trials = 513, p-value = 0.07882alternative hypothesis: true probability of success is less than 0.595 percent confidence interval: 0.0000000 0.5051157sample estimates:probability of success 0.4678363,连续
22、变量比例的检验,有时需要检验收入低于某个水平的人占有的比例是否和预期的一致。这里只要把大于某水平的观测值看作贝努力实验的“成功”,而把小于某水平的观测值看成“失败”,就回到二项分布了。,连续变量比例的检验,例. (数据life.txt)某微生物的寿命问题,这里有某微生物在一种污染环境下生存的寿命数据,问题是存活时间低于2小时的是否少于70%。,连续变量比例的检验, binom.test(sum(x2),60,0.7,alt=greater) Exact binomial testdata: sum(x 2) and 60number of successes = 52, number of trials = 60, p-value = 0.002208alternative hypothesis: true probability of success is greater than 0.795 percent confidence interval: 0.7722601 1.0000000sample estimates:probability of success 0.8666667,