1、秩和检验在大学生综合成绩与学习时间关系分析的应用摘要:大学生的考试成绩历来受到重视,而学习时间投入的多少是否会与综合成绩有明显的关系呢?本文通过秩和检验,借助 R 软件,探究两者之间的关系,最后总结全文并提出建议,大学生应该投入更多的时间到学习中去。 关键词:综合成绩 学习时间 秩和检验 R 软件 一、引言 秩和检验(rank-sum test) ,是从两个非正态总体中所得到的两个样本之间的比较,其零假设为两个样本从同一总体中抽取的。秩和检验属于非参数统计方法,它不依赖于总体的分布类型,不以推断总体参数为目的,旨在检验两种或两种以上的观察变量的分布有无显著性差别,适用范围广泛。本文建立秩和检验
2、模型,逐步深入地探究大学生的考试综合成绩和学习时间之间的关系,并提出行之有效的建议。 在秩和检验的理论及应用方面,高尔生等(2001)系统的讲解了两样本比较的秩和检验、配对比较的符号秩和检验、完全随机化设计资料的秩和检验,并通过分析医学案例,清晰的展现出秩和检验的思路与方法。宛新荣等(2003)将秩和检验运用到动物生态学的研究中,大大加强了秩和检验的实用性。张俊辉等(2005)讨论了卡方检验和秩和检验在单向有序列联表应用上的比较,得出当检验效应有无差别时,更适合用秩和检验的结论。 本文重在对秩和检验进行应用。在对大学生考试综合成绩和学习时间关系分析中,文章从多样本入手,以周平均学习时间的均值作
3、为衡量用时多少的标准对综合成绩进进行多样本比较的秩和检验。进一步分析下,建立扩展了的 t 检验对多个样本进行两两之间的秩和检验,以推断哪两个总体的分布位置不同。最后,依据结论为大学生的学习方面提供一些建议。 二、秩和检验理论 1.多样本比较的秩和检验 多样本比较的秩和检验可用 Kruskal-Wallis 法,是利用多个样本的秩和推断各样本分别代表的总体的位置有无差别(即个总体的变量值有无倾向性的不同) 。它相当于单因素方差分析的非参数方法,此法适用于有序分类资料及不宜用参数检验(F 检验)的数值变量资料,该法亦称为H 检验。其基本步骤为: (1)建立假设 H0:各组样本总体分布位置相同;H1
4、:各组样本总体分布位置不全相同。显著性水平 =0.05。 (2)多组混合编秩 假设 s 组样本的观察值的样本量分别为 n1、n2、ns,总容量为n。先将多样本看成是单一样本,然后由小到大排列观察值,统一编秩。 (3)计算各组秩和 计算各组样本的秩和,令 Wi 代表第 i 组的秩和,且它们之间存在关系: (4)利用 Wi 计算出检验统计量 H 在 s3 或者 ni5 的大样本情况下,H 近似服从自由度为 s-1 的的卡方分布。 (5)根据 P 值作出统计结论 如果 H 位于检验界值区间内,P,则不拒绝 H0;如果 H 位于检验界值区间外,P,则拒绝 H0,接收 H1,认为多组的总体分布位置不全相
5、同。 2.多样本间两两比较的秩和检验 当多个样本比较的秩和检验结论认为各个总体的分布位置不全相同时,常需进一步作两两比较的秩和检验,以推断哪两个总体的分布位置不同,哪两个总体间没有这种差别。本文建立扩展的 t 检验来解决两两比较的问题。 H0:A、B 两组样本的总体分布位置相同; H1:A、B 两组样本的总体分布位置不相同。 显著性水平 =0.05。 统计量 t 值的公式为: 式中: ; nA 和 nB 为 A、B 两组样本的容量; S 为处理组数; H 为统计量的 H 值; N 为总个数。 t 统计量服从自由度为 的 t 分布。根据分布确定 P 值,判断结果。如果 P,则不拒绝 H0;如果
6、P,则拒绝 H0,接收 H1,认为 A、B 两组的总体分布位置不相同。对任两组样本做检验,得出结论。 三、实证分析 1.数据收集和描述 本文的调查单位取自于中南财经政法大学统计学专业 30 名学生,调查这 30 名同学的综合考试成绩和周平均学习时间,我们对这 30 名学生的综合成绩和周平均学时做描述统计分析,见下表 1: 从表 1 中可以看出,30 个学生的综合成绩平均值为 83.47 分,中位数为 84.5 分,周均学时平均值为 39.80 时,中位数为 43 时。而且我们通过表 1 能够发现,学生的综合成绩与周均学时是存在一定联系的。下面我们就用秩和检验分析这种联系。 2.多样本比较的秩和
7、检验 我们在上一部分对 30 名大学生的综合成绩和周平均学时做了粗略的分析,下面我们将学习时间进行进一步的细分,将两样本扩充到多样本,更充分的给出给出两者关系的结论。 我们仍以周均学时作为划分样本的依据,周均学时不大于 26 小时(下四分位数为 26)的学生认为是用时很少的学生,周均学时大于 26 小时不大于 43 小时(中位数为 43)的学生认为是用时较少的学生,周均学时大于 43 小时不大于 50 小时(上四分位数为 50)的学生认为是用时较多的学生,周均学时大于 50 小时的学生认为是用时很多的学生。处理后得到四组样本见下表 2: 对四组样本采用 Kruskal-Wallis 秩和检验,
8、原假设为四组样本的成绩分布位置无差异,备择假设为四组样本的成绩分布位置不全相同。借助 R 软件作分析。我们可以看出 P 值=0.000006,远小于 =0.05,拒绝原假设,认为学习上用时间很多、学习上用时间较多、学习上用时间较少、学习上用时间很少四组样本的学习综合成绩总体分布位置显著地不会完全相同,学生综合成绩与学习时间具有显著关系。 得出了上述结论,我们希望能够弄清两两样本间的综合成绩是否存在显著差异,以更好的认识各个层次水平下学习时间的不同是否会显著影响学生的综合成绩,因此,我们进行多个样本间两两比较的秩和检验。3.多样本间两两比较的秩和检验 在进行四组样本总体比较的秩和检验后,我们对这四组样本进行两两比较的秩和检验,以推断哪两个总体的分布位置不同,哪两个总体间没有这种差别。