1、第五章 相关分析 课堂笔记 主要知识点掌握程度 了解相关的意义与积差相关的概念,会计算积差相关系数;了解肯德尔和谐系数的作用,会计算肯德尔和谐系数;了解二列相关与点二列相关的意义及适用范围,会计算二列相关与点二列相关。 知识点整理一、相关的意义(一)相关的概念两个变量之间不精确、不稳定的变化关系称为相关关系。它与函数关系的区别就在于两个变量值不是一一对应得那样精确、稳定。 两个变量之间的变化关系。既表现在变化的方向上。又表现在密切的程度上。 从变化方向来看,两个变量之间有以下几种关系: 1、正相关两个变量的变化方向一致,即一个变量值变大时。另一个变量值也随之变大;一个变量值变小时,另一个变量值
2、也随之变小,这两个变量之间的关系称为正相关。 2、负相关 两个变量的变化方向相反。即一个变量值变大时,另一个变量值随之变小;一个变量值变小时,另一个变量值随之变大,这两个变量之间的关系称为负相关。 3、零相关 两个变量值变化方向无一定的规律,即一个变量值变大时,另一个变量值可能变大也可能变小,并且变大、变小的机会趋于相等,这两个变量之间的关系称为零相关。亦即两者之间无相关。从密切程度来看。无论两个变量的变化方向是否一致凡密切程度高的称为强相关或高度相关,密切程度一般的称为中度相关,密切程度弱的称为弱相关或低度相关。(二)相关系数用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数
3、。一般用r 表示。关于相关系数 r,必须明确以下三点: 相关系数的数值范围是在-1 到+1 之间,即 0|r|l;相关系数 r 的正值与负值之间,没有优劣之分;相关系数值不能进行四则运算。二、积差相关积差相关,又称积矩相关,是英国统计学家皮尔逊于 20 世纪初提出的一种计算相关的方法,因而也称皮尔逊相关,是求直线相关的基本方法。 (一)概念及其适用范围1、积差相关的概念 当两个变量都是正态连续变量,而且两者之间呈线性关系时,表示这两个变量之间的相关称为积差相关。2、积差相关的使用条件 由于积差相关是统计学上第一次对相关问题进行的定量描述(以前都是用相关散布图进行描述) ,具有开创性。因此,它所
4、适用的条件也就相对严格些。 第,两个变量都是由测量获得的连续性数据。上例百分制分数可视为测量获得的连续性数据。 第二,两个变量的总体都呈正态分布。或接近正态分布,至少是单峰对称的分布。第三,必须是成对数据。而且每对数据之间相互独立。第四,两个变量之间呈线性关系。这可由相关散布图的形状来决定。第五,要排除共变因素的影响。若两个变量都随着一个共同因素在变化,即便计算出的积差相关系数很高,也难以判断这两个变量之间存在着高度相关。第六,样本容量 n30,计算出的积差相关系数才具有有效意义。以上关于积差相关系数的使用条件,可以概括为三个:(1)两变量是测量数据。 (2)两变量的总体都是正态分布,或接近于
5、正态分布。 (3)必须是成对数据。且 n30。(二)积差相关系数的计算积差相关系数就是两个变量标准分数乘积之和除以 n 所得之商。用公式表示为:在这里 表示 X 变量的样本标准差; 表示 Y 变量的样本标准差。这里积差相关系数的定义公式。用定义公式计算积差相关系数时,既要计算平均数,又要计算标准差,过于麻烦。一般采用原始数据计算法。其计算公式为: 在这里XY 表示 X 与 Y 两个变量每对观察值的乘积之和; X 表示 X 变量的观察值的总和;Y 表示 Y 变量的观察值的总和; 表示 X 变量的观察值平方和; 表示 Y 变量的观察值平方之和。三、等级相关等级相关是指以等级次序排列或以等级次序表示
6、的变量之间的相关,主要包括斯皮尔曼二列等级相关和肯德尔(Kandall)和谐系数多系列等级相关。积差相关虽然精确,但使用条件较多,不容易满足。在教育研究中,有些数据未必是测量数据,有些变量的总体未必呈正态分布或近似正态分布,成对数据的对数也不一定能达到 30 对。(一)斯皮尔曼等级相关 1、概念及其适用范围 当两个变量值以等级次序排列或以等级次序表示时,两个相应总体并不一定呈正态分布,样本容量也不一定大于 30,表示这两个变量之间的相关,称为等级相关。 根据某种标准对某项成绩所评定的等级,或按某种指标的优劣程度所排列的名次等,均属于等级秩序性分数。 因为计算等级相关系数时,并有要求总体呈正态分
7、布,也不要求 ,所以应用范围较广。但是,若两个变量的原始资料都是较精确的度量资料,则不必化成较粗略的等级资料,否则会失掉很多信息。除了两个变量(或其中一个变量)的原始资料本身就属于等级性资料,或者难以判断资料所属总体呈何种分布形态,一般以采用积差相关为宜。2、相关系数的计算计算斯皮尔曼等级相关系数的公式为 在这里 表示等级相关系数;D 表示两个变量每对数据等级(不是原始的等级,而是经过重新赋值后的等级)之差;n 表示样本的容量。 (二)肯德尔和谐系数 1、概念及其适用范围 当多个(两个以上)变量值以等级次序排列或以等级次序表示,描述这几个变量之间的一致性程度(即相关)的量,称为肯德尔和谐系数。
8、它常用来表示几个评定者对同一组学生学习成绩等级评定的一致性程度,或同一个评定者对同一组学生的学习成绩用等级先后评定多次之间的一致性程度。 在教育测验中,肯德尔和谐系数常用来作为主观题评分者信度的指标。 2、肯德尔和谐系数的计算 (1)无相同等级的情况当同一个评定者对所有被评事物的评定无相同等级时,其肯德尔和谐系数的计算公式为 在这里 表示肯德尔和谐系数;K 表示评定者的人数或同一评定者对同一组被评事物先后评定的次数;n 表示被评定事物的个数,R 表示 K 个评定者对同一个被评事物所给予的等级之和; 表示 R 的离差平方和,即 。(2)有相同等级的情况 有相同等级时比没有相同等级时要复杂得多。
9、当同一位评定者对所有被评事物的评定有相同等级时,可对肯德尔和谐系数进行校正,校正公式为:= 在这里 m 表示相同等级的个数 校正的肯德尔和谐系数计算步骤如下:赋予等级;计算 ;计算 T;计算校正的肯德尔和谐系数。四、质与量的相关质与量的相关是指一个变量为质,另一个变量为量,这两个变量之间的相关。如智商、学科分数、身高、体重等是表现为量的变量,男与女、优与劣、及格与不及格等是表现为质的变量。质与量的相关主要包括二列相关、点二列相关、多系列相关。这里只讨论二列相关和点二列相关。 (一)二列相关 1、概念及其适用范围 当两个变量都是正态连续变量,其中一个变量被人为地划分成二分变量(如按一定标准将属于
10、正态连续变量的学科考试分数划分成及格与不及格,录取与未录取,把某一体育项目测验结果划分成通过与未通过,达标与未达标,把健康状况划分成好与差,等等),表示这两个变量之间的相关,称为二列相关。二列相关的使用条件为:两个变量都是连续变量,且总体呈正态分布,或总体接近正态分布,至少是单峰对称分布;两个变量之间是线性关系;二分变量是人为划分的,其分界点应尽量靠近中值;样本容量 n 应当大于 80。 2、二列相关系数的计算 二列相关系数的计算公式有两种表示形式,其中一种形式为:在这里 表示二列相关系数; p 表示二分变量中某一类别的频数比率; q 表示二分变量中另一类别的频数比率; 表示与二分变量中 p
11、类相对应的连续变量的平均数; 表示与二分变量中 q 类相对应的连续变量的平均数; 表示连续变量的标准差;Y 表示正态曲线下与相对应的纵线高度另一处表示形式为: 在这里 表示连续变量的平均数。(二)点二列相关 1、概念及其适用范围 当两个变量其中一个是正态连续性变量,另一个是真正的二分名义变量(例如,男与女,已婚和未婚,色盲与非色盲,生与死,等等),这时,表示这两个变量之间的相关,称为点二列相关。有时一个变量虽然并非真正的二分变量,而是双峰分布的变量,也可以用点二列相关来表示。 2、点二列相关系数的计算 点二列相关系数的计算公式有两种表示形式,其中一种形式为: 表示点二列相关系数; p 表示二分变量中某一类别频数的比率; q 表示二分变量中另一类别频数的比率; 表示与二分变量中 p 类别相对应的连续变量的平均数; 表示与二分变量中 q 类别相对应的连续变量的平均数; 表示连续变量的标准差。 另一种表示形式为: 在这里 表示连续变量的平均数。