1、第四章 基本统计分析,2,3,4.1 频数分析 Frequencies,频数分析的基本任务:编制频数分布表和绘制统计图。频数分析的扩展功能:计算分位数和计算其它基本的描述统计量(包括:集中趋势、离散程度、分布形态)注意:这里计算基本统计量的功能在Descriptive也可以实现。故不作重点讲解。,4,主对话框,5,计算基本统计量 Statistics,四分位数,每隔指定百分位数,直接指定某个百分位数,6,绘制统计图 Charts,频数,频率,7,频数分布表输出格式 Format,当频数表的分组数大于下面指定数值时禁止它在结果中输出,这样可以避免产生巨型表格。,当选择两个以上变量作频数表时,C可
2、以将结果输出在同一频数表过程的output;O可以将结果输出在不同的output。,8,按变量值升序排列,这里是定类变量,计算累计百分比是无意义的,9,10,11,常用分析指标:算术平均数、调和平均数、几何平均数;众数、中位数、分位数等,常用分析指标:全距、内距、平均差、方差、标准差等;,4.2 计算描述统计量 Descriptive,12,偏度与峰度,分布形态主要是指数据分布是否对称,偏斜程度如何,分布陡缓程度如何。偏度(Skewness):反映数据分布对称性的统计量。当数据为对称分布时偏度为零;当数据为正偏态分布(右偏)时偏度大于零;当数据为负偏态分布(左偏)时偏度小于零。峰度(Kurto
3、sis):以标准正态分布为标准描述该分布密度的形状为陡缓程度的统计量。 当数据为标准正态分布时,峰度为零;数据分布为尖峰分布时峰度大于零;数据分布为平峰分布时峰度小于零。,13,标准化Z分数问题,标准化Z分数问题:通过标准化过程可得到一系列新变量值,通常称为标准化值或Z分数。标准化过程:标准化变量的作用:可以发现变量中的极大值和极小值,以便发现分布是否均衡的问题。描述统计分析的结果指标与频数分析过程基本相同,区别在于:Descriptive只计算几个主要的描述指标,不同时输出频数分布图表。,14,主对话框,对当前变量的数据进行标准化,产生的新变量名为原变量名前加“Z”,并显示在最后一列。,选择
4、统计量,15,16,重抽样自举法(Bootstrap,拔靴法)所谓的自举法就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布之新样本。设一个样本具有变量y1,y2,y3,yn,用某种方法得到其对总体参数a的估计值则在抽样时,每一轮都要从这n个变量中抽取一个容量也是n的随机样本,并保证每一变量在每轮每次抽样中的被抽取概率都是1/n(相当于经典方法的复置抽样)。,17,实现方法:此过程一般可用随机数表或由计算机输出n个01之间的随机数实现。即:先将样本变量编码为1,2,n;然后取分组距离1/n将区间 0,1分成n个互斥的分隔:01/n,1/n2/n, 2/n3/n,.,(n-1
5、)/n;出现的随机数,凡在 0R1/n之间的取编码“1”变量,凡在1/nR2/n 之间的取编码“2”变量,凡在(n-1)/n R1 之间的取编码“n”变量,这就称为自举抽样,,18,由这n个“新”变量组成的样本则称为自举样(bootstrap sample)。当对原始样本变量重复进行m轮自举抽样,就得到m个容量均为n的自举样本。再对每一样本都按照在原始样本中所用的方法求出参数a的估计值,会得到关于参数的m个估计值,这些估计值的方差称为自举方差。重抽样自举法的意义:自举方差是对估计量抽样方差较好近似。,19,20,4.3 交叉分组下的频数分析 Crosstabs,统计中常常会探讨变量间的关系,如
6、两变量间是否有关联、进一步研究两变量间是否是因果关联。如性别和大学专业的选择,学习兴趣和学习效果等等。列联表分析的目的:分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。两大基本任务:一,产生两维或多维交叉列联表; 二,对两两变量间是否存在一定的相关性进行卡方检验和其它相关性检验。分析对象:两个或多个定类或定序的变量。,21,交叉列联表行列变量间关系的分析,所有观测频数都出现在主对角线上,则两变量存在正相关。所有观测频数都出现在负对角线上,则两变量存在负相关。,在绝大多数情况下,观测频数的分布是分散在列联表的各个单元格中的,此时就不容易直接发现行列变量之
7、间的关系和他们关系的强弱关系。为此,需要借助非参数检验方法和一些度量变量间相关程度的统计量等手段进行分析。,22,23,主对话框,行变量,列变量,层变量,指定哪种方法分析行列变量间的关系,指定列联表单元格中的输出内容,指定列联表单元的输出排列顺序,当涉及到两个以上的变量讨论时需要通过层变量来实现,24,观测频数,期望频数,行百分比,列百分比,总百分比,非标准化残差,Cells & Format,标准化残差,调节的标准化残差,25,层变量,行变量,列变量,注:未标准化残差定义为:观测频数-期望频数,26,27,注意:Crosstabs 过程不能产生一维频数表(单变量频数表),该功能由Freque
8、ncies过程实现。,28,卡方检验,卡方检验的作用:可用于探讨列联表行变量和列变量之间是否有关联的推断性分析。若无关联,则认为两变量独立。H0:行变量与列变量独立。卡方检验的统计量(Pearson卡方统计量):决策方法:若卡方观测值的概率p小于等于a,则判定行列变量间存在存在依存关系;反之,如果卡方观测值的概率p大于a,则判定行列变量间相互独立。这里a0.05或0.01。,29,30,1Pearson卡方检验,2连续性校正,3似然比卡方检验,4Fish精确检验,5线性相关卡方检验,卡方检验注意事项,一,列联表的单元格不应太少,例如22的列联表需要进行连续型修正和采用Fisher精确检验进行校
9、对。二,各单元格中的期望频数,不应有期望频数小于1的单元格,或大量的期望频数小于5的单元格。若列联表中有20以上的单元格的期望频数小于5,则一般不宜用卡方检验。此时,可以合并采用合并相邻单元格或采用似然率比卡方检验。,31,32,三,总频数n应较大,一般至少大于50,大于100更好。在小样本是可主要参考连续性校正和Fisher的精确检验。四、卡方值的大小会受到样本量的影响,若各个单元格中的样本数均等比例扩大10倍,于是卡方值也会随之扩大10倍。但由于自由度和显著水平没有改变,卡方的临界值不变,进而使拒绝零假设的可能性增高。即在样本量很大时,容易得到“两变量有关联”的结论,即便两变量的关联性很微
10、弱时。,五、当行列变量都是定序型变量,可以参考线性相关卡方检验,该检验是检验两个定序的行列变量间是否具有线性相关性。,33,度量变量间相关程度的统计量,除上述卡方检验法之外,SPSS还提供了其他度量变量间相关关系的检验方法,帮助人们了解变量间相互依赖的强弱程度,量化交叉分类变量间的关系。四大类相关分析的检验方法。判断方法:系数的绝对值越接近于1,则变量的相关性越强;越接近于0,则变量间相互独立。正负号代表相关方向。变量的类型大致分为:定类、定序、定距。当定序变量的类别数较多时,可以近似将定序视为定距,常规上变量类型在使用上只允许降级使用,不许用升级使用。,34,35,卡方检验,1两定类,2一定
11、类一定距,3两定序,医学分析中常用指标,4两定距或两定序,Statistics,适用于两定类变量的方法:检验的统计量有列联系数、Phi系数、Cramer V系数、Lambda、不确定系数等。这些方法大都是从Pearson卡方统计量派生出来的,试图将样本量、行列数对卡方的影响减少到最小。Phi适用于22的列联表。列联系数适用任意行列数的列联表,但注意到列联系数的最大值会随行列数的增大而增大。因此,在比较两两变量间的相关性时,注意应在行列数均相同的前提下才有可比性。,36,Cramer V 适用于任意行列数的列联表,在22的列联表中,V系数和Phi系数是相等的。,37,适用于两定序变量的方法:检验
12、的统计量有Gamma系数、Somersd系数Kendalls Tau-b系数、 Kendalls Tau-c系数等。 这些方法均是围绕“同序对数”和“异序对数” 展开的,它们是变量相关性检验的非参数方法中 的两个重要指标。Kendalls Tau-b系数适用于nn的列联表。Kendalls Tau-c系数适用于任意列联表。,38,Gamma系数适用于22的列联表。,39,适用于两定距或两定序变量的方法:检验的统计量有Pearson相关系数(参数方法)和Spearson相关系数(非参数方法)。他们的取值在-11之间,绝对值越大,相关性越强,且是表明线性相关性越强。由于列联表分析中,定距型变量通常
13、不作为行列变量,因此在交叉列联表的分析中该选项基本不用。在相关性分析的模块中提供了相应的使用。,40,适用于一定类变量、一定距变量的方法:其相关性检验方法是Eta系数。该方法的核心思想类似于单因素方差分析。它将定类变量作为“控制变量”(Independent,解释变量),将定距变量当作观测变量(Dependent,被解释变量)。然后分析观测变量的变差中有多少比例是可以由控制变量解释的。Eta系数的取值在01之间,越接近1,表示两变量的相关性越强。,41,42,4.5 比率分析 Ratio,比率分析用于对两变量间变量值比率变化的描述分析,适用于定距变量。当研究者特别关心该比率在不同组间的变动情况
14、是,该过程非常有用。描述分析基本包括两大类:一类是集中趋势的描述指标,另一类是离散程度描述指标。,43,要求在结果窗口中输出分析结果,要求将分析结果存为外部数据,44,中位数,均数,加权均数,区间估计,平均绝对离差,离散系数,相关价格微分,基于中位数的变异系数,基于均数的变异系数,用于描述相比值落入某一区间所占的比例,自定义具体区间的上、下界,自定义距离中位数的百分比,45,集中系数,加权均数的算法为组内分子的均数除以分母的均数,46,4.4 多选项分析,多选项分析主要是针对问卷调查的多选项问题的。本节主要讨论多选项问题结果的保存(多选项问题的分解),以及多选项问题的频数分析。多选项问题分解的两种办法:第一,多选项二分法;第二,多选项分类法。频数分析的两步骤:第一,定义多选项变量集;第二,作多选项频数分析或交叉分组下的频数分析。,47,Define Sets,指定变量集中的变量是按哪种方法分解的,表示选中的数值,48,Frequencies,注意:Spss规定只要样本在多选项变量集中的某一个变量上取缺失值,分析时就将该样本剔出。,49,50,Crosstabs,行变量,列变量,定义变量的取值范围,51,分母为样本数,分母为多选项应答数,52,