1、SPSS 第第 7章章 SPSS非参数检验非参数检验 前面进行的假设检验和方差分析, 大都是在数据服从 正态分布或近似地服 从正态分布的条件下进行的。 但是如果 总体的分布未知, 如何进行总体参数的 检验,或者如何检验总体服从一个指定 的分布,都可以归结为 非参数检验方法 。 SPSS 本章主要内容 单样本的非参数检验 两独立样本非参数检验 两配对样本非参数检验 多独立样本非参数检验 多配对样本非参数检验 SPSS 第一节单样本的非参数检验 l总体分布的卡方检验 l二项分布检验 l单样本 K-S检验 l变量值随机性检验 SPSS 总体分布的卡方检验 总体分布的卡方检验是一种 对总体分布 进行检
2、验 的极为典型的非参数检验方法。 eg:在一个正 20面体的各面上分别标有 0 9十个数字,每个数字在两个面上标出 。若把该 20面体投掷一些次数后,若检验 每个数字出现的概率是否大致相同,则需 用卡方检验。 概念 SPSS l 将总体的取值范围分成 有限个互不相容的子集 ,从总体中抽取一个样本,考察样本观察值落到每 个子集中的 实际频数, 并按假设的总体分布计算每 个子集的 理论频数 ,最后根据实际频数和理论频数 的差构造 卡方统计量 ,即 l当原假设成立时,统计量服从卡方分布。以此来检 验假设总体的分布是否成立。 基本思想 SPSS 决策情况: 如果 的概率 ,则应拒 绝原假设,即认为样本
3、来自的总体分布 与期望分布或某一理论分布存在显著差 异;反之,则不存在显著差异。 SPSS 基本操作及应用举例 (以心脏病猝死 .sav为例) 分析 非参数检验 卡方 SPSS SPSS 输入检验 变量 输入理论(期 望)分布值 SPSS SPSS 因为卡方对应的概率 P值大于 0.05, 所以差异不显著,即认为样本来自的总体 分布与指定的理论分布无显著差异 SPSS 二项分布检验 SPSS的二项分布检验 正是通过样本数 据检验样本来自的 总体是否服从 指定概率 值为 P的 二项分布 ,其原假设为样本来自的 总体与指定的二项分布无显著差异。 概念 SPSS lSPSS二项分布检验,在 小样本
4、中采用精确检验 方法 ,对于 大样本 则采用近似检验方法 。 精确检 验方法 计算 n次试验中成功出现的次数小于等于 x次的概率,即 l在大样本下, 采用近似检验 ,用 Z检验统计量, 即 基本思想 SPSS l决策情况: 如果上述两种情况下的概率 P值小 于显著性水平 ,则应拒绝原假设, 即认为样本来自的总体分布与指定的 二项分布存在显著差异;反之,则不 存在显著差异。 SPSS 二项分布检验的基本操作与应用 (以产品合格率 .sav为例) 分析 非参数检验 二项式 SPSS 输入检 验概率 值 SPSS SPSS 由于概率 P大于 0.05, 所以不能拒绝原假设 ,即认为一级品率不 低于
5、0.9 SPSS K-S检验( Kolmogorow-Smirnov) ,该方法 能够利用样本数据推断样本来自 总体是否 与某一个理论分布有显著差异 ,是一种拟 合优度的检验方法,适用于探索 连续型随 机变量的分布 。 概念 单样本 K-S检验 SPSS 正态分布 均匀分布 指数分布 泊松分布 理论分布类型 SPSS l在原假设成立的前提下,计算各样本观测值在理 论分布中出现的理论概率值 F(x) l计算各样本观测值的实际累计概率值 S( x);计 算实际累计概率值与理论累计概率值的差 S( x) F(x) l计算差值序列中的最大绝对差值,即 修正的 D为 基本思想 SPSS 决策情况: 如果
6、 D统计量的概率 P值小于显著 性水平 ,则应拒绝原假设,即认 为样本来自的总体分布与指定的分布 存在显著差异;反之,则不存在显著 差异。 SPSS 单样本 K-S检验的基本操作与应用举例 以儿童身高 .sav为例 分析 非参数检验 1-样本 K-S SPSS SPSS 正态 分布 SPSS SPSS 由于概率 P大于 0.05,所以不能拒 绝原假设,即认为 周岁儿童身高的总 体分布与正态分布 无显著差异 SPSS P-P图 SPSS Q-Q图 SPSS 单样本 K-S检验的基本操作与应用举例 以储户存款金额总体的分布检验为例 SPSS 概率 P小于 0.05,所以拒绝原 假设,即认为储户存款
7、金额总 体分布不服从正态分布 SPSS 变量值随机性检验 u概念: 通过对样本变量值的分析,实现对总体 变量值出现是否随机进行检验。 u基本思想: 利用游程大小进行判断。 游程 是指变量值序列中连续出现相同的值的次 数 u检验统计量: 其中, 基本思想 SPSS 变量值随机性检验的 SPSS操作 以耐电压值 .sav为例 SPSS SPSS 因为概率 P 值大于 0.05,所 以不能拒 绝原假设 ,即认为 该设备是 正常工作 的 SPSS 练习 1.在一个正 20面体的各面上分别标出 0 9个数 字,每个数字在两个面上标出,现将它投掷 805次,得出各数字朝上的次数。数据放在 Frequncy
8、.sav文件中,试检验其均匀性。 2.试着检验抛硬币实验中,正面出现的概率是 否为 1/2.数据在硬币结果 .sav中。 3.试着检验 10个电子元件的使用寿命分布是否 服从指数分布?数据在电子元件使用寿命 .sav 中。 SPSS 4.现有抛掷一枚硬币 66次所得结果保存在数 据文件硬币结果 .sav中,请检验该实验是否 是随机性实验。 SPSS 第二节两独立样本的非参数检验 如果 两个无联系总体的分布是未知 的,则 检验 两个总体的分布是否有显著差异 的方 法是一种非参数检验方法,或者称为 两个 独立样本的检验 。检验是通过两个总体中 分别抽取的随机样本数据进行的。 概念 SPSS 曼 -
9、惠特尼 U检验 K-S检验 w-w游程检验 极端反应检验 方法 SPSS 方法一:两独立样本的曼 -惠特尼 U检验 概念 通过对两组独立样本平均秩的研究来推断它 们来自的两个总体分布有无显著差异 。 检验的基本步骤 u首先将两组样本数据( X1,X2,X n)和( Y1,Y2,Y n )混合并按 升序 排序,得到每个 数据各自的秩 Ri 基本思想 SPSS u分别对两组样本的 秩求平均, 得到两个平均秩 W x/m和 W Y/m,然后比较它们的大小,若差值较大 ,说明原假设很可能不成立。 u计算两个样本 各自优先于对方 的秩的个数 U1、 U2 , 即 然后对 U1、 U2大小进行比较,若它们
10、相差较大时 ,则有必要怀疑原假设的真实性。 u 计算 WilcoxonW 统计量,其为上述 U1、 U2较小 者所对应的秩和 SPSS u计算曼 -惠特尼 U统计量, 小样本下, U统计量服从 Mann-Whitney 分布 即 大样本下, U统计量近似服从正态分布 SPSS u统计决策 在小样本下,依据 U统计量的概率 P值进行决策 ;在大样本下,则依据 Z统计量的概率 P值进行决 策。 若概率 P值小于显著性水平 ,则拒绝原假设, 即认为样本来自的两总体分布存在显著差异;反 之,则差异不显著。 具体计算举例以课本 P199页数据为例 SPSS 曼 -惠特尼 U检验 SPSS基本操作 (以两
11、独立样本使用寿命为例) 分析 非参数检验 2个独立样本 SPSS SPSS 由于本题中 涉及是 小样 本,因此采 用 U检验 ,相 应概率为 精 确概率 ,由 于 0.04小于 0.05,所以 拒绝原假设 ,所以认为 两种工艺下 产品使用寿 命的分步存 在显著差异 SPSS 方法二:两独立样本 K-S检验 概念 K-S检验 不仅能够对 单个总体的分布 是否与 某一理论分布存在显著差异进行检验,还 可以对 两个总体的分布 是否存在差异进行 检验 基本思想 SPSS 基本思想同前面单样本 K-S检验,但也有些 不同,就是分析的对象是 变量值的秩。 基本步骤 首先, 将两组样本混合并按升序排序 然后
12、, 分别计算两组样本秩的累计频数和累 计频率。 最后, 计算两组累计频率的差,得到秩的差 值序列并得到 D统计量,根据 D统计量得出 的概率 P与显著性水平大小进行比较判断。 SPSS 两独立样本 K-S检验 SPSS基本操作 (以两独立样本 -使用寿命为例) SPSS SPSS 方法三:两独立样本的游程检验 该方法的基本思想与单样本游程检验的基本相同 ,不同的是计算游程数的方法。两独立样本的游 程数依赖于变量的秩。 首先 ,将两组样本混合并按升序排序,在变量值排 序的同时,对应的组标记值也会随之重新排列 然后 ,对组标记值序列按前面的计算游程的方法进 行计算游程数。若游程数较少,则说明两总体
13、有 较大差异。反之,则差异不大。 基本思想 SPSS 根据游程数计算 Z统计量 最后, 进行统计决策。 SPSS 两独立样本的游程检验 SPSS的基本操作 (以两独立样本 -使用寿命为例) SPSS SPSS 方法四:两独立样本的 极端反应检验 将一组样本作为控制样本,另一组样本作 为实验样本,以控制样本作为对照,检验 实验样本相对于控制样本是否出现了极端 反应。如果实验样本没有出现极端反应, 则认为两总体分布无显著差异;反之则差 异显著 。 基本思想 SPSS 具体分析过程: 首先, 将两组样本混合按升序排序 然后, 求出控制样本的最小秩 Qmin 和最大秩 Qmax, 并计算出跨度 S=
14、Qmax- Qmin+1 接着 , 为消除样本数据中极端值对分析结果的 影响,计算跨度之前可按比例去除控制样 本中部分靠近两端的样本值,然后再求跨 度,得到截头跨度。 SPSS 极端反应注重对跨度和截头跨度的分析。针对跨度 或截头跨度计算的 H检验统计量为: 小样本下, H统计量服从 Hollander分布;大样本下 , H统计量近似服从正态分布。 最后, 进行统计决策。 SPSS 两独立样本的极端反应检验 SPSS的基本操作 (以两独立样本 -使用寿命为例 ) SPSS SPSS 应用举例(以城镇和农村储户存款 金额比较为例 ) SPSS SPSS SPSS双样本 Kolmogorov-Sm
15、irnov 检验 SPSS Wald-Wolfowitz 检验 SPSS 练习题 现有数据关于患者服用两种不同安眠药后 睡眠时间延长情况,请用四种不同方法来 检验两种不同安眠药对睡眠时间延长分布 是否有显著差异? SPSS 第三节多独立样本的非参数检验 l中位数检验 lKruskal-Wallis 检 验 lJonckheere- Terpstra检验 城市 身高 样 本数据 北京 79, 75, 78, 76, 72 上海 72, 71, 74, 74, 73 成都 76, 78, 78, 77, 75 广州 70, 72, 71, 71, 69 四城市周岁儿童身高样本数据 SPSS 中位数
16、检验 概念: 通过对多组独立样本的分析,检验 它们来自的总体的中位数是否存在显著差 异。 基本思想: 如果多个总体的中位数没有显 著差异,那么这个共同的中位数应在各样 本组中均处在中间位置上。 基本思想 SPSS 分析步骤: 首先, 将多组样本混合按升序排序,并求出混合样 本的中位数。 然后, 分别计算各组样本中大于和小于上述中位数 的样本个数,形成列联表。 接着, 利用卡方检验方法分析各组样本来自的总体 对于上述中位数的分布是否一致。如果各组中大 于(或小于)上述中位数的样本比例大致相同, 则可认为多组样本有共同的中位数,它们来自的 总体的中位数没有显著差异。反之,则有显著差 异。 最后,
17、进行统计决策。 SPSS 计算示例 SPSS 多独立样本的中位数检验 SPSS基本操作 以儿童身高 .sav为例 分析 非参数检验 K个独立样本 SPSS SPSS 因为概率 P小于 0.05,所以拒绝 原假设,即认为 四个不同城市的 儿童身高的中位 数有显著差异 SPSS Kruskal-Wallis检验 概念: 检验实质是两独立样本的曼 -惠特尼 检验在多个独立样本下的推广,用于检验 多个总体的分布是否存在显著差异。 基本思想: 首先, 将多组样本数据混合并按升序排序, 求出各变量值的秩 . 基本思想 SPSS 其次, 考察各组秩的均值是否存在显著差异。构造 K-W 检验统计量为: 最后,
18、 根据 K-W 统计量相应的概率 P值与显著性水 平 大小进行比较,作出决策。 SPSS 多独立样本的 Kruskal-Wallis检验的 SPSS操作 以儿童身高 .sav为例 SPSS 因为概率 P值小 于 0.05,所以拒 绝原假设,即认 为四个城市的周 岁儿童身高的平 均秩差异是显著 的,总体分布是 存在显著差异的 SPSS Jonckheere-Terpstra检验 概念 : 用于检验多个独立样本来自的多个总 体的分布是否存在显著差异的非参数检验 方法。 基本思想: 同两独立样本的曼 -惠特尼 U检验 类似,也是计算一组样本的观察值小于其 他组样本观察值的个数。 基本思想 SPSS
19、小样本下,构造的 J-T统计量为: 大样本下,构造的 Z统计量为: 最后,根据统计量得到的概率 P值与显 著性水平大小进行比较,作出决策 SPSS 多独立样本的 Jonckheere-Terpstra检验的 SPSS操作 以儿童身高 .sav为例 SPSS SPSS 练习 现有不同地区不同性质工作的职工工资数 据保存在文件 “职工工资 .sav”中,如果定义 一个分组变量,将我国东部、中部和西部 各省标上 1, 2, 3作为分组值,下面来考察 东部、中部和西部的职工平均工资是否存 在显著差异( =0.05) ? SPSS 两配对样本的非参数检验是在对总体分 布不甚了解的情况下,通过对两组配对样
20、 本的分析,推断样本来自的两个总体的分 布是否存在显著差异的方法。 第四节 两配对样本的非参数检验 概念 SPSS Mcnemar 符号检验 Wilcoxon 符号检验 方法 SPSS 方法一:两配对样本的 Mcnemar方法 McNemar检验是一种变化显著性检验 ,它将研究对象自身作为对照者检验其 “前 后 ”的变化是否显著。其原假设是两配对样 本来自的两总体的分布无显著性差异。 基本思想 该方法主要 针对服从二项分布的变量 ,因 此如果变量不是二项分布,还要先对数据进行 转化,然后再检验。因此有一定的局限性 SPSS 分析 非参数检验 2个相关 样本 SPSS基本操作(以统计学 .sav
21、为例) SPSS SPSS 因为概率 P 大于 0.05, 所以不能拒 绝原假设, 即认为学习 统计学前后 学生对其重 要性认识没 有发生显著 变化 SPSS 方法二:两配对样本符号检验 其检验方法与 McNemar检验有类似的解决 思路,且利用正负号的个数实现检验。 基本步骤为: 首先, 分别用第二组样本的各个观察值减去 第一组样本的对应观察值。差值为正则记 为正号,为负则记为负号; 然后 ,将正号的个数与负号的个数进行比较 。 基本思想 SPSS 若两种符号个数大致相同,则认为两组配 对样本的数据分布差距较小;反之,则差 距较大。 检验方法仍然采用二项分布检验方法。 SPSS SPSS基本
22、操作(以训练成绩 .sav为例) SPSS 由于概率 P值 大于 0.05, 因此不能拒 绝原假设, 即认为训练 前后的成绩 分布没有显 著差异,也 就是新方法 效果不显著 SPSS 方法三:两配对样本 Wilcoxon符号 秩检验 首先 ,按照符号检验的方法,用正负号分 别表示两组对应样本数据差值情况。 然后 ,将差值变量进行 升序 排序,并求出 差值变量的秩。分别计算正号秩及统计量 W + 和负号秩及统计量 W - 基本思想 SPSS 小样本下,检验统计量为: W=min( W + , W -) 大样本下,检验统计量为: 最后 , 进行统计决策 SPSS SPSS基本操作(以训练成绩 .s
23、av为例) SPSS 因为概率 P值大 于显著性水平 0.05,所以不 能拒绝原假设 ,认为训练前 后的成绩分布 没有显著差异 ,即新方法效 果不显著 SPSS 练习 一车间为了提高工作效率,对某种零件的加 工过程进行改进,为了比较加工时间是否 明显减少,抽取 15名工人对比他们改革前 后零件的加工时间,得到相应的数据存放 在 “改进前后零件加工时间 .sav”中,试根据 数据检验改进后零件的加工时间是否明显 减少( =0.05)?采用两配对样本符号检验 和两配对样本 Wilcoxon 符号秩检验方法 SPSS 第五节多配对样本的非参数检验 多配对样本的非参数检验是通过分析 多组 配对样本数据
24、, 推断样本来自的多个总体 的中位数或分布是否存在显著差异。 Eg:对多个评委对同一批歌手比赛打分标 准是否一致。 概念 SPSS Friedman检验 Cochran Q检验 Kendall协同系数检验 方法 SPSS 方法一:多配对样本的 Friedman检验 概念: 多配对样本的 Friedman检验是利用秩实现 对多个总体分布是否存在显著差异的非参数检验 方法。 基本思想: 比较每种处理下秩总和是否相等,即是否有 或 存在来大体比较多个 总体分布是否有显著差异。 但具体比较还要通过构造检验统计量来进行。 SPSS 方法一 SPSS基本操作 (以促销方式 .sav为例) 分析 非参数检验
25、 K个相关 样本 SPSS SPSS 因为概率 P小 于显著性水平 0.05,所以拒 绝原假设,即 认为三种不同 促销方式下的 销售额数据的 分布存在显著 差异 因为第二种 促销形式下 的秩均值最 大,因此促 销效果最好 SPSS 方法二:多配对样本的 Cochran Q检 验 概念: 通过对多个配对样本的分析,推断样本 来自的多个总体的分布是否存在显著差异。 基本思想:主要针对二值变量的,因此不进行 秩的计算,构造 Q检验统计量: 最后进行统计决策 SPSS 方法一 SPSS基本操作 (以航空公司 .sav为例) SPSS 因为概率 P小于 0.05 ,所以拒绝原假设 ,认为三家航空公 司的
26、服务水平存在 显著差异。 因为甲航空 公司得到乘 客满意的人 数最多,因 此其服务水 平最高 SPSS 方法三:多配对样本的 Kendall协同 系数检验 概念: 也是一种多配对样本的非参数检验方法,与 Friedman检验方法结合,可方便实现对评判者的评 判标准是否一致的判断,其原假设是 评判者的评判 标准不一致。 基本思想: 分析还依赖于秩的大小比较。 协同系数 SPSS 最后,进行统计决策 若根据 W 计算得概率 ,则 拒绝 原假设,即认 为评判者的评判 标准一致 ; 若 ,则 不能拒绝 原假设,即认为评判者的 标 准不一致。 SPSS 方法三 SPSS基本操作(以评委打分 .sav为例) SPSS 因为概率 P小于 0.05,所以拒 绝原假设,即认为各歌手得 分的平均秩存在显著差异 W协同系数 0.955,非 常接近 1,所以评委 的评分标准是一致的