1、第6 章 方差分析,6.1 方差分析概述6.2 单因素方差分析6.3 多因素方差分析6.4 协方差分析,6.1 方差分析概述,在农业、商业、医学、社会学、经济学等诸多领域的数量分析研究中,方差分析已经发挥了极为重要的作用。这种从数据差异入手的分析方法,有助于人们从另一个角度发现事物的内在规律性。差分析从对观测变量的方差分解入手,通过推断控制变量各水平下各观测变量的总体均值是否存在显著差异,分析控制变量是否给观测变量带来了显著影响,进而再对控制变量各个水平对观测变量影响的程度进行剖析。根据控制变量个数,将方差分析又分为单因素方差分析、多因素方差分析,以及协方差分析。观测变量为一个以上的方差分析为
2、多元方差分析。,6.2 单因素方差分析,6.2.1 单因素方差分析的基本思想单因素方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。例如,分析不同施肥量是否给农作物产量带来显著影响;考察地区差异是否会影响妇女的生育率;研究学历对工资收入的影响等。这些问题都可以通过单因素方差分析得到答案。,6.2.2 单因素方差分析的数学模型,假设:控制变量 A有k各水平,每个水平均有r各样本(r为试验次数)。那么,在水平 下的第j次试验的样本值 可以定义为: 为观测变量在水平 下的期望值; 为抽样误差,是服从正态分布 的独立随
3、机变量。令则,6.2.3 单因素方差分析的基本步骤,方差分析问题属于推断统计中的假设检验问题,起基本步骤与假设检验完全一致。1.提出零假设 2.选择检验统计量 方差分析采用的检验统计量是F统计量,3、计算检验统计量的观测值和概率p值 该步目的是计算检验统计量的观测值和相应的概率p值。SPSS自动将相关数据带入上式,计算出F统计量的观测值和对应的概率p值4、给出显著性水平 ,并做出决策 给出显著性水平 ,与检验统计量的概率p值做比较。如果概率p值小于显著性水平,则应拒绝零假设,认为控制变量不同水平观测变量的总体均值存在显著差异,控制变量各水平的相应不同时为0,控制变量的不同水平对观测变量产生了显
4、著影响;反之,如果概率p值大于显著性水平 ,则不应拒绝零假设,认为控制变量不同水平下观测变量的总体均值无显著差异,控制变量各水平的效应同时为0,控制变量的不同水平对观测变量没有产生显著影响。,6.2.4 单因素方差分析的进一步分析,在完成上述单因素方差分析的基本分析后,可得到关于控制变量是否对观测变量造成显著影响的结论,接下来还应做其他几个重要分析,主要包括方差齐性检验、多重比较检验等。,6.2.4.1 方差齐性检验,方差齐性检验是对控制变量不同水平下各观测变量总体的方差是否相等进行分析。前面提到,控制变量的不同水平下观测变量总体方差无显著差异是方差分析的前提要求。如果没有满足这个前提要求,就
5、不能认为各总体分布相同。因此,有必要对方差是否齐性进行检验。SPSS单因素方差分析中,方差齐性检验采用了方差同质性(Homogeneity of Variance)检验的方法,其零假设是各水平下观测变量总体的方差无显著差异,实现思路同SPSS两独立样本t检验中的方差检验,这里不再赘述。,6.2.4.2 多重比较检验,单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。如果控制变量确实对观测变量产生了显著影响,进一步还应确定控制变量的不同水平对观测变量的影响程度如何,其中哪个水平的作用明显区别于其他水平,哪个水平的作用是不显著的等。多重比较检验利用了全部观测变量值,利用各种方法
6、避免一类错误概率的扩大,巧妙地实现了对各个水平下观察变量总体均值的逐对比较。由于多重比较检验问题也是假设检验问题,因此也遵循假设检验的基本步骤。多重比较检验的零假设是相应两水平下观测变量总体的均值不存在显著差异。,多重比较的方法,1、LSD方法 即为最小显著性差异(Least Significant Difference)法。具有检验敏感性高的特点,即水平间的均值只要存在一定程度的微小差异就可能被检验出来。LSD方法适用于各总体方差相等的情况,但它并没有对犯一类错误的概率问题加以有效控制2、Bonferroni 方法 Bonferroni方法与LSD方法基本相同。不同的是Bonferroni对
7、犯一类错误的概率进行了控制。,3、Tukey方法 与LSD方法相比,Tukey方法对犯一类错误概率的问题给予了较为有效的处理。Tukey方法适用于各总体方差相等的情况。4、Scheffe方法5、S-N-k方法.,单因素方差分析的基本操作,在利用SPSS进行单因素方差分析时,应注意数据的组织形式。SPSS要求定义两个变量分别存放观测变量值和控制变量的水平值。SPSS单因素方差分析的基本操作步骤是:(1)选择菜单 分析比较均值单因素ANOVA,于是出现如图6-1所示的窗口。,(2)选择观测变量到【因变量列表】 框。(3)选择控制变量到 【因子】 框。控制变量有几个不同的取值就表示控制变量有几个水平
8、。(4)方差分析要求满足方差齐性,点击【选项 】,选择 【方差同质性检验】至此,SPSS便自动分解观测的变差,计算组间方差、组内方差、 统计量以及对应的概率 值,完成单因素方差分析的相关计算,并将计算输出到SPSS输出窗口中。,单因素方差的应用举例,例6.1 在入户推销上有5种方法,某公司想比较这5种方法有无显著效果差异,设计了一项实验:从应聘的且无推销经验的人员中随机挑选一部分人,将他们随机地分为5个组,每组用一种推销方式进行培训,培训一个月后观察他们在一个月内的推销额,数据如下:通过单因素方差分析方法分析这5种推销方法在平均月推销额上有无显著性差异?,组别 推销额(千元)第一组 20 16
9、.8 17.9 21.2 23.9 26.8 22.4 第二组 24.9 21.3 22.6 30.2 29.9 22.5 20.7第三组 16 20.1 17.3 20.9 22 26.8 20.8 第四组 17.5 18.2 20.2 17.7 19.1 18.4 16.5第五组 25.2 26.2 26.9 29.3 30.4 29.7 28.2,具体操作:(1)选择菜单 分析比较均值单因素ANOVA,于是出现如图6-1所示的窗口。(2)将左侧的“推销额”选择到右侧的 【因变量列表】 框。(3)将左侧的“组别”选择到 【因子】 框。(4)单击【选项】,出现如图6-2所示的窗口,选择【方差
10、同质性检验】。,表6-1是方差齐性检验,显著性为0.1130.05,接受零建设,认为,方差相等。,表6-2推销形式对推销额的单因素方差分析的结果,显著性P值为0.0000.05,拒绝零假设,认为推销形式对推销额有显著性影响。,6.3 多因素方差分析,6.3.1 多因素方差分析的基本思想多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多各因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。,6.3.2 多因素
11、方差分析的数学模型,设控制变量A有k各水平,B有r各水平,每个交叉水平下均有l个样本(l次试验)。那么,在控制变量A的水平 和控制变量B的水平 下的第k个样本值 可以定义为 为抽样误差,是服从正态分布 的独立随机变量。,6.3.3 多因素方差分析的基本步骤,方差分析问题属于推断统计中的假设检验问题,其基本步骤与假设检验完全一致。1、提出零假设 多因素方差分析的零假设是个控制变量不同水平下观测变量各总体的均值无显著差异,控制变量各效应和交互效应同时为0,记为意味着控制变量和它们的交互作用没有对观测变量产生显著影响,2、选择检验统计量3、计算检验统计量观测值和概率p值4、给出显著性水平,并做出决策
12、,多因素方差分析的基本操作,在利用SPSS进行多因素方差分析时,应首先将各个控制变量以及观测变量分别定义成多个SPSS变量,并组织好数据后再进行分析。SPSS多因素方差分析的基本操作步骤是:(1)选择菜单分析一般线性模型单变量,于是出现如图6-5所示的窗口。,定观测变量到【因变量】框中。(3)指定固定效应的控制变量到【固定因子】框中,指定随机效应的控制变量到【随机因子】框中。(4)单击 【模型】 按钮,弹出 【单变量模型】 框,指定模型,选择类型。至此,SPSS将自动建立多因素方差分析的饱和模型,并计算各检验统计量的观测值和对应的概率p值,并将结果显示在SPSS输出窗口中。,多因素方差分析的应
13、用举例,例6.3 城市道路交通管理部门为研究不同的路段和不同的时间段对行车时间的影响,搜集了3个路段高峰期和非高峰期的30个行车时间的数据如下(单位:分钟),分析路段、时段以路段与时段的交互作用对行车时间的影响。,1 选择菜单分析一般线性模型单变量,于是出现如图6-5所示的窗口。2指定左侧“行车时间”到【因变量框】中。3指定固定效应的控制变量“路段”“时段”到【固定因子】框中4单击【模型】按钮,弹出【单变量模型】框,将“路段”“时段” 两个因子选入模型框中,在效应选项中,选择类型【主效应】。如图6-6 ,分析结果如表6-8,所示,表6-8给出了无交互作用的两因子方差分析的结果。路段,时段因子的
14、概率P值为0.000小于显著性水平0.05,拒绝零假设,可以判断,路段和时段因子显著,即不同时段不同路段对行车时间由显著性的影响。,6.4 协方差分析,6.4.1 协方差分析的基本思路协方差分析仍然沿承方差分析的基本思想,并在分析观测变量变差时,考虑了协变量的影响,认为观测变量的变动受四个方面的影响,即控制变量的独立作用、控制变量的交互作用、协变量的作用和随机因素的作用,并在扣除协变量的影响后,再分析控制变量对观测变量的影响。,6.4.2 协方差分析的数学模型,单因素协方差分析的数学模型是 是在水平 下的第j次试验的样本值;为观测变量期望值; 是控制变量水平 对试验结果产生的附加影响,是水平
15、对观测变量产生的效应; 是回归系数; 是水平 下的第j次试验的样本值对应的协变量值; 为抽样误差,是服从正态分布 的独立随机变量。,6.4.3 协方差分析的基本操作,在利用SPSS进行协方差分析时,应首先将作为协变量的变量定义成一个SPSS变量。SPSS协方差分析的基本操作步骤如下:选择菜单分析 一般线性模型 单变量,于是出现如图6-8所示的窗口。,2 指定观测变量到【因变量】框中。3 指定固定效应的控制变量到【固定因子】框中,指定随机效应的控制变量到【随机因子】框中。4 指定作为协变量的变量到【协变量】框中。,6.4.4 协方差分析的应用举例,例6.4 对研究三种不同饲料对生猪体重增加(wy
16、h)的影响,将生猪随机分成三组各喂养不同的饲料(sl),得到体重增加的数据。由于生猪体重的增加理论上会受到猪自身身体条件的影响,于是收集生猪喂养前体重(wyq)的数据,作为自身身体条件的测量指标。为准确评价饲料的优劣,采用单因素协方差分析的方法进行分析。这里,猪体重的增加量为观测变量,饲料为控制变量,猪喂养前的体重为协变量。具体数据如下,具体操作如下(1)选择菜单分析 一般线性模型 单变量,于是出现如图6-8所示的窗口。(2)指定增加的体重“增重”到,选入【因变量】框中。(3)指定选择饲料种类的变量“饲料”到【固定因子】框中,(4)指定作为“初重”到【协变量】框中。,分析结果如下:,表6-10
17、给出了协方差分析的结果,概率p值都为0.0000小于显著性水平0.05,拒绝原假设,可推断饲料和初重这两个因子都高度显著,即饲料和初重对猪的生长都有显著的影响。,小结:,方差分析是通过对实验结果的分析来判断因子是否显著的一种统计方法,它从分析样本的离差平方和入手,鉴别影响事物变化的各种因素的效应是否显著,进而可以找出显著因素的最佳水平。方差分析可以分为:1、单因素方差分析,用来研究一个因子的不同水平是否对指标产生了显著影响。在中,单因素方差分析是通过【分析】工具中的【比较均值】实现的。,多因素方差分析,研究两个或两个以上因子是否对指标产生显著影响,这种方法不仅能分析多个因素对指标的独立影响,更能分析多个因素的交互作用能否对指标产生显著性影响,进而找到利于指标的最优组合。3、协方差分析,是将那些很难人为控制的因素作为协变量,并在排除协变量对质变影响的条件下,分析可以控制的因素对指标的影响,从而更加准确的对实验结果进行评价。,在中,多因素方差分析和协方差分析是通过【分析】工具中的【一般线性模型】实现的。方差分析一般情况下实质上是多个总体均值的比较问题,并且要求前提是样本满足方差齐性。方差分析的内涵很广,要熟练的应用方差分析这个工具,需要认真学习方差分析的理论知识。,