1、绪论1. 什么是教育与心理统计学教育与心理统计学是应用统计学的一个分支,是数理统计学与教育学、心理学的一门交叉学科,它把统计学的理论方法应用于教育实际工作和各种心理实验、心理测验等科学研究中,通过对所得数据的分析和处理,达到更为准确地掌握情况、探索规律、制订方案、目的,为教育与心理的科学研究提供了一种科学的方法。2. 教育与心理统计学的基本内容及本书体系。1)描述统计学:这一部分主要是研究和简缩数据和描述这些数据。例如:计算平均数、中位数、众数等,以这些参数来反映观测数据的集中趋势。计算标准差、方差等,以这些参数来反映观测数据的离散趋势。描述统计学主要是描述事务的典型性、波动范围以及相互关系,
2、提示事物的内部规律。2)推断统计学:这部分内容主要是研究如何利用数据去作出决策的方法。推断统计学则是一种依据部份数剧去推论全体的一种科学方法,它是进行教育与心理实验、对教育与心理研究或实验作出预测和规划的有力工具。推断统计学的主要内容有:统计检验、统计分析和非参数统计法。3)多元统计分析:这部分内容主要是研究超过两个因素的教育与心理的研究和实验。多元统计分析的主要任务就是寻找出主要的因素,相近或相关的因素合并或归类。多元统计分析的主要内容有:主成分分析、因素分析、聚类分析、多元方差分析、多元回归分析等。3. 教育与心理统计学的昨天、今天和明天1)与心理统计学的昨天:1904 年美国人桑代克写的
3、心理与社会测量导论2)教育与心理统计学的今天:叶佩华主编的教育统计学 ,张厚粲主编的心理与教育统计等。4. 预备知识1)概念与术语随机变量:教育与心理实验或观测,在相同的条件下,其结果可能不止一个,同实验或观测所得到的数据,事先无法确定,这类现象称为随机现象。因为可以用数字来表现,则称这些数字为随机变量。它的特点是:离散性、变异性和规律性。依其性质可分为:称名变量、顺序变量、等距变量、比率变量四种称名变量:用于说明一事物与其它事物在属性上的不同或类别上的差异,但不说明事物与事物之间差异的大小。顺序变量:指可以按事物的某一属性,把它们按多少或大小顺序加以排列的变量。等距变量:指变量之间具有相等的
4、距离。它除了有量的大小外,还具有相等的单位。比率变量:除了有量的大小、相等单位之外,还有绝对零点。变量依其相互关系可分为自变量(一般将相互关系中作为原因的称为自变量)与因变量(作为结果的称为因变量) 。函数关系式 y=f(x)表示,y 为因变量, x 为自变量。总体、样本、个体总体是指具有某一种特征的一类事物的全体。个体是指构成总体的每一个基本元素。样本是在总体中按一定规则抽取的一部分个体,称为总体的一个样本。2)常用的符号与计算连加号及运算法则表示连加符号,同时表示想加的观测数值共有 n 个,这些数值的下标编号 i 从 1 起至 n 止。运算法则如下:若 c 是一个常数,而 xi是观测变量,
5、则常与变量的乘积的连加和等于变量连加和与常数的乘积。设 c 是一个常数,则连加和等于 nc.若 xI和 yi都是变量,则变量和的连加和等于各个变量连加和的和。几个常用符号。变量一般以大写英文字母表示,而变量中的元素则以小写英文字母表示。变量平均数、变量标准差、方差,一般都用大写英文字母表示。第 1 章第 1 节 次数分布表与图(适用于描述一元连续变量的观测数据)1. 次数分布及其表达方式概述次数分布指的是一批数据中各个不同数值所出现的次数情况,或者是指一批数据在量各等距区组所出现的次数情况。次数分布表:我们通常是对数据进行分组归类,考察这批数据在量尺上各等距区内的次数分布情况,并把这种情况用规
6、范的表格形式加以体现,这就是次数分布表,若用图形来表达,那就叫做次数分布图。2. 次数分布表的编制1)简单次数分布表简单次数分布表,通常简称为次数分布表,其实质是反映一批数据在各等距区组内的次数分布结构。其编制的主要步骤为:求全距,字母 R 表示。全距等于最大值减最小值,公式为:R=Max-Min定组数,字母 K 表示。把整批数据划分为多少个等距的区组。公式:K=1.87(N-1) 2/5定组距,字母 i 表示。I=R/K写出组限。 (表述组限与实际两个不同的概念,但它们之间有规律性的联系;当各相邻组的组限已经相互承接而没有间断时,便认为已把表述的组限与实际的组限统一起来,且不管这里表述的实下
7、限与实上限是整数还是小数;按照本书上述规定的组限表述方法即可形成规范的组限表述方式,并与其他学科中的区间表达方法统一起来。求组中值。组中值=(组实上限+组实下限)/2.归类划记登记次数3. 次数分布图的绘制次数分布图有次数直方图和次数多边图两种表达方式。1)次数直方图(是由若干宽度、高度不一的直方条紧密排列在同一基线上构成的图形)绘制步骤:以细线条标出横轴和纵轴(取正半轴即可) ,使其垂直相交;每一直方条的宽度由组距 i 确定并已体现在横轴的等距刻度上;在直方图横轴下边标上图的编号和图的题目,并检查一下图形结构的完整性。2)次数多边图(利用闭合的折线构成多边形以反映次数变化情况的一种图示方法)
8、3)相对次数直方图与多边图4)累积次数分布图(有直方图式和曲线图式两种,曲线图式常用,它是根据累积次数分布或累积相对次数分布制作而成。 )5)累积相对次数曲线图与累积百分数曲线图第 2 节 几种常用的统计分析图(散点图、折线图、条形图和圆形图)1. 散点图(适合于描述二元变量的观测数据)散点图是用平面直角坐标系上点的散布图形来表示两种事物之间的相关性及联系模式。绘制散点图注意:在平面直角坐标系中,横轴一般代表自变量,纵轴一般代表因变量;横轴既可作为连续性变量的量尺,也可作为离散性变量的量尺,但纵轴一般均代表连续变量的量尺;点的描绘依二元观测数据而定,但在具体描绘时应注意用细线画坐标轴,用稍粗黑
9、点描绘各个坐标点,点位置的确定按平面解析几何学中的方法;注意图形的调和比例和必要的图注说明。2. 线形图(是以起伏的折线来表示某种事物的发展变化及演变趋势的统计图。 )适用于描述某种事物在时间序列上的变化趋势、描述一种事物随另一事物发展变化的趋势模式、比较不同的人物团体在同一心理或教育现象上的变化特征及相互联系。3. 条形图(是用宽度相同的长条来表示各个统计事项之间的数量关系。 )通常用于描述离散性变量的统计事项。1)简单条形图(它适用于统计事项按一种特征进行分类的情况)2)复合条形图(用两类或三类不同色调的直方长条来表示多特征分类下的统计事项之间数量关系的一种图示方法)4. 圆形图(是以单位
10、圆内各扇形面积所占整个圆形面积的百分比来表示各统计事项在其总体中所占相应比例的一种图示方法。 )特别适用于描述具有百分比结构的分类数据。第 1 章自测练习【练习 1】试比较简单条形图与简单次数直方图在制作和应用方面的异同点。解答:条形图和直方图都是次数分布图,但前者适用于离散型随机变量的次数分布描述,其所依据的次数分布表是离散型次数分布表。后者则适用于连续型随机变量的次数分布描述,其所依据的次数分布表是连续型次数分布表。这一区别决定了它们在制作上的不同。即相应于不同类型的次数分布表,条形图中的直条对应离散变量各类别,因而直条没有宽度的要求,直条之间是间隔排列的;而直方图的直条则对应连续变量次数
11、分布的各取值区间,宽度即组距,直条比较相连排列。具体参照教材有关内容。 【练习 2】简述散点图、折线图、条形图和圆形图这四种统计分析图的应用特点。解答:如上题所述,条形图适用于离散型变量的次数分布,是一种次数分布图;圆形图的适用条件与之相同。所不同的是,圆形图使用圆中的扇面弧度来替代直条表达次数或相对次数,所有扇面组成整个圆周。因而圆形图本身就包含有相对次数信息。散点图是专用于分析两个连续变量或至少是等级变量间相关关系的统计图,它用两个相关变量的配对数据分别作为散点的横、纵坐标在平面直角坐标系中描点,根据散点分布的区域的形状就可以大致判断两变量间的相关关系。例如如果散点区域形状是一个椭圆,则变
12、量为直线性相关,椭圆长轴的方向还可以表达相关的方向。折线图在教材中之牵涉到所谓的均值图,即描述某个因变量(指标)在一个离散型自变量的各水平上取值均值的统计图,将指标在自变量各水平上取值的均值作为纵坐标先描出散点,然后用线段连接这些散点构成折线,故而叫折线图。折线图通常用在组间均值比较中帮助直观分析各均值间的差异。第 2 章 常用统计参数中心位置:用以度量一级数据的集中趋势,描述它们的中心位于何处,故对其数量化描述称为置度量数或集中量数。离散性:反映一组数据的分散程度,即次数分布的离散程度。对其数量化描述称为次数分布变异特性的度量或差异量数。参数:总体统计特征的量数。统计量:样本统计特征的量数。
13、第 1 节 集中量数(描述数据集中趋势的统计量。包括:算术平均数、加权平均数、几何平均数、中数,等。它们的作用都是试题次数分布的集中趋势。 )1. 算术平均数只有在与其他几种集中量数相区别时,才称它为算术平均数。算术平均数是用以度量连续变量次数分布集中趋势的最常用的集中量数。公式:1)总体平均数与样本平均数。2)加权平均数3)算术平均数具有以下性质:每一个观测值都加上一个相同常数 C 后,计算得到的平均数等于原平均数加上这个常数;每一个观测值都乘以一个相同常数 C 后,计算得到的平均数等于原平均数乘以这个常数;每一个观测值都乘以一个相同常数 C 后,再加上一个常数 d 后,计算得到的平均数等于
14、原平均数乘以这个常数 c 再加上常数 d.观测值与平均数离差的总和为零观测值与任意常数 c 的离差平方和,不小于观测值与平均数的离差平方和。4)算术平均数的优点:反应灵敏、确定严密、简明易解、计算简便并能作进一步的代数演算等优点,是应用最普遍的一种集中量数。5)算术平均数的缺点:易受极端数据影响、出现模糊数据和存在不等质数据时无法计算算术平均数的缺点。2. 几何平均数(Mg)当出现以下两种情况时需用几何平均数:一组数据中任何两个相邻数据之比接近于常数,即数据按一定的比例关系变化。在教育与心理研究中,求平均增长率或对心理物理学中的等距与等比量表实验的数据处理;当一组数据中存在极端数据,分布呈偏态
15、时,算术平均数不能很好的反映数据的典型情况,此时应使用几何平均数或其他集中量数(如中数、众数)来反映数据的典型情况。公式:公式变形:未来情况的预测数 X= x( ) n inii niiXXn下.1 121 0)(xi22)()(xxii cxNi)(1xcNi)(112kwNxi121ngiMxx 112lglg(l)nixMxgXx表示预测的基础。3. 中数(又称中位数,Mdn)1)中数是指位于一组数据数列中间位置的那个数。中数可能是观测数据中的某一个,也可能根本不是原有的数。中位数的位置 nMdn=(n+1)/22)当一组观测数据中出现极端数据时,或一组数据的两端有模糊数据出,此时不能用
16、算术平均数来作为这组数据的代表值,而应求中数。3)中数的优缺点是:具有计算简单、不受极端数据的特点,但由于中数是根据数据的相对位置来确定的,在计算时不是每个数据都加入计算,从而有较磊的抽样误差,不如平均数稳定;同时,由于中数难以作进一步的代数运算,故而在多数情况下,中数不如平均数应用广泛。4. 众数(M 0 指次数分布中出现最多的那个数的数值)当一组数据出现不同质的情况,或分布中出现极端数据时,也用众数作为集中量数的粗略估计。皮尔逊计算方法:M 0=3Mdn-2第 2 节 差异量数次数分布数据间彼此差异的程度称作数据的离中趋势。它反映了次数分布的变异性。集中量数反映次数分布的典型情况,差异量数
17、则反映次数分布的特殊性。1. 平均差(AD)2. 方差与总体标准差1)方差(Variance):也叫变异数、均方,是每个观测值与该组数据的平均数之差平方后和的均值,即离均差平方和的平均数。2)样本方差和总体方差的计算方法和含义是一致的,但符号不同,前者用 S2表示,后者用 2表示。3)标准差(Standard deviation):即方差的平方根,样本方差常用符号 S 或 SD 表示,总体方差则用 表示。 3. 标准差的合成。4. 标准差的性质1)一组数据的每一个观测值都加上一个常数 C,其标准差不变。即 Y i=Xi+CXnxXADiiNXS22 2()XN-1 22()-12)一组数据的每
18、一个观测值都乘以一个常数 C,其标准差为原标准差乘以常数 C。即 Yi=Xi C3)每个观测值都乘以同一个常数 C(C0),再加上一个常数 d,所以标准差等于原标准差乘以这个常数 C。即 Sy=CSx5. 方差(推断统计最常用的统计量数)和标准差的意义方差与标准差是表示一组数据离散程度的最好指标,值越大说明离散程度越大,反之亦然。具有以下优点:1)反应灵敏,每个数据取值的变化,方差与标准差都会随之变化;2)有一定的计算公式严密确定;3)容易计算并适合代数运算;4)受抽样变动的影响小;5)具有可加性,因此可以分解并确定出属于不同来源的变异性,并可进一步说明每种变异对总结果的影响,是以后统计推论部
19、分常用的统计特征数。6. 差异系数(CV)CV=S/ *100%第 3 节 地位量数原始变量在其所处分布中地位的量数,称为地位量数。地位量数常被用来表示各种常模。种类:百分位分数、百分等级分数、标准分数、 T 分数1. 百分位数(Pm) 。计算公式如下:2. 百分等级分数(PR 某个已知原始分数在其所处分布中的相对位置叫百分等级分数。)计算公式如下:百分等级越小,原始数据在分布中的相对位置越低百分等级越大,则越高。百分位分数和百分等级分数称为百分位量表。优点是:计算简便,意义明确,对各种测验普遍适用。缺点是:它是一个顺序量表,不具相等单位,从而不能作进一步的运算,无法作进一步的统计分析,另外,
20、由于百分位量表的分布呈长方形,当测验分数的分布为正态或接近正态时,百分位量表将夸大分布中间的原始分数的差异而缩小分布两端的原始分数的差异。第 4 节 相关分析X ifFNmUPifLamb)10( 下ULPfm:下abm下:10)(LFxfNifLxFPRbb1. 相关相关: 即两类现象在发展变化的方向与大小方面存在一定的关系。事物之间存在联系但又不直接作出因果关系的解释时,称事物间的这种联系为相关。相关分析:用一些合理的指标对相关事物的观测值进行统计分析,以判断两事物相关的程度,称为相关分析。相关散点图:1)呈曲线趋势,称曲线相关或非线性相关。2)直线称线性相关3)X 和 Y 正相关4)X
21、和 Y 负相关2. 相关系数及其解释相关系数:是两列变量间相关程度的数量化指标。总体的相关系数用 表示。相关系数取值范围介于 -1.00 至+1.00 之间,即-1.00 r +1.00 (零相关、完全相关)3. 常用相关分析方法及其计算1)积差相关系数英国的统计学家皮尔逊(Pearson)于 20 世纪初提出了积差相关概念,用来计算线性关系的两列变量的相关程度。计算公式如下:2)积差相关系数(r XY 的计算3)等级相关(r R)等级相关是积差相关的特例二者可以互相推导,等级相关引进了计算误差,没有积差相关精确,能够用积差相关计算的数据一定不能用等级相关计算。斯皮尔曼等级相关的基本公式: 如
22、不用对偶等级之差,而用原始等级序数计算: 下下162NDrR下1413YXYXRNRNr 4)肯德尔 W 系数(肯德尔和谐系数)又叫肯德尔和谐系数(the Kendall coefficient of concordance) ,用rW表示。在心理与教育研究中,肯德尔和谐系数常用来考察评分者的一致性程度。评定有两种情况,即不同评定者对同一组个体的等级评定,或者同一评定者对同一个体等级的几次评定。5)质量相关第 3 章 概率和分布第 1 节 概率1. 概率1)随机现象确定性现象:在一定条件下事先可以断言必然会发生某种结果的现象;(分必然现象和不可能现象)随机现象:在一定条件下,事先不能断言会出现
23、哪种结果的现象。随机现象具有两个特征:一次试验前,不能预言发生哪一种结果,这说明随机现象具有偶然性;在相同条件下,进行大量次重复试验,呈现出统计规律性,这说明随机现象具有必然性。随机事件:随机现象中出现的各种可能的结果称为随机事件。在每次实验中一定要发生的事件称为必然事件。在每次实验中一定不发生的事件称为不可能事件。2)事件与概率频率(frequency):在 N 次实验中,某一事件出现的相对次数称为该事件的频率。即如果某一事件 A 在 N 次实验中出现了 n 次,则事件 A 发生的频率为:F(A)=n/N。对于某一随机事件 A,当实验次数足够多时,其频率会趋向于某一个稳定的值,即频率具有稳定
24、性。这个稳定的频率反映了事件 A 发生的可能性的大小,即反映了事件 A 发生的概率(probability)。频率是事件发生的外部表现,而概率才体现事件发现的内存实质。频率用符号 F 表示,概率常用符号 P 表示。如事件 A 的概率用 P(A)表示,事件 B 的概率用 P(B)表示,。概率的统计定义(后验概率):若实验满足两个条件,1 是每次试验中某一事件发生的可能性不变。2 是试验能大量重复,且每次试验相互独立。即某随机事件在 n 次实验中出现 m 次,其发生的频率 m/n 随实验次数的增多会渐趋稳定,这个稳定的频率即可作为该随机事件发生的概率。这样计算到的概率叫后验概率。后验概率的计算:概率的古典定义(先验概率):它要求满足两个条件,1 是每次试验中所可能出现的结果的个数是有限的。这些结果叫作基本事件或样本点。2 是每次试验中每个基本事件的出现是等可能的,即每个基本事件发生的概率相等。即若试验同 n 个有限的基本事件组成,且每次试验中每个基本事件出现是等可能的,有利事件 A 发生的次数为 m,则事件 A 的概率为:P(A)=m/n概率的性质必然事件的概率为 1,记作 P( )=1不可能事件的概率为 0,记作 P()=0nmliAP