1、第15章相关分析与回归分析,第15章相关分析与回归分析,相关分析和回归分析都是分析事物之间关系的数量分析方法;事物之间的关系大概可以分为函数关系和统计关系两类,而相关分析和回归分析是用来分析统计关系的数量方法;,第15章相关分析与回归分析,函数关系是一一对应关系,也可以说是一种确定性的关系;特点之一是一个变量值有另一个变量的值确定;这种关系很多;另外一种关系是统计关系;不是一一对应,而是存在随机的不确定性;但是两个变量确实存在关系;,第15章相关分析与回归分析,函数关系比较容易确定;统计关系不是那么直接,它存在强弱、程度的差异;但是这种关系又是普遍存在的,甚至很多函数关系不能描述的,统计关系都
2、能描述;,第15章相关分析与回归分析,相关分析可以通过图形和数值两种方式,有效的揭示事物之间统计关系的强弱程度;方式有以下几种:散点图:特点是直观;相关函数:特点是精确;,第15章相关分析与回归分析,绘制散点图是非常常用而直观的方法;将数据用点的形式绘在直角平面图上;通过看图可以可以看出变量间的统计关系以及关系的强弱;散点图直观,但是不精确;样本相关函数以数值的方式精确反映两变量相关关系的强弱;,不相关,正线性相关,负线性相关,相关但非线性相关,第15章相关分析与回归分析,15.1相关分析简介15.2简单相关分析15.3偏相关分析15.4Distances过程,15.1相关分析简介,15.1.
3、1相关分析的指标体系15.1.2一些基本概念15.1.3SPSS中的相应功能,15.1.1相关分析的指标体系,测量相关程度的相关关系有很多,各种参数的计算方法和特点各异。大部分相关函数具有如下特点介于正负1之间;大于0表示正相关,小于0表示负相关;绝对值大于0.8表示有较强线性关系,绝对值小于0.3,说明线性关系较弱;,15.1.1相关分析的指标体系,连续变量的相关指标Pearsons correlation coefficient)又叫相关系数或线性相关系数。它一般用字母r表示。它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于-1和1之间。当两个变量有很强的线性相关时,相关
4、系数接近于1(正相关)或-1(负相关),而当两个变量不那么线性相关时,相关系数就接近0。,15.1.1相关分析的指标体系,有序变量的相关指标Kendall t 相关系数(Kendalls t)。这里的度量原理是把所有的样本点配对。如果每一个点由x和y组成的坐标(x,y)代表,一对点就是诸如(x1,y1)和(x2,y2)的点对。然后看每一对中的x和y的观测值是否同时增加(或减少)。,15.1.1相关分析的指标体系,比如由点对(x1,y1)和(x2,y2),可以算出乘积(x2-x1)(y2-y1)是否大于0;如果大于0,则说明x和y同时增长或同时下降,称这两点协同(concordant);否则就是
5、不协同(discordant) 。如果样本中协同的点数目多,两个变量就更加相关一些;如果样本中不协同的点数目多,两个变量就不很相关。,15.1.1相关分析的指标体系,Kendall t 相关系数Pc:一致观察对的个数(Concordant Pair of Obj)Pd:不一致观察对的个数(Discordant Pair of Obj),15.1.1相关分析的指标体系,例xyx1y1x2y2x3y3 x4y4 x5 y5经求秩排序后,产生如下数据表格。,15.1.1相关分析的指标体系,假定数值分布1为:xyCD124034305620781091000(xj-xi)(yj-yi)其中,i为定值,
6、j为变值。同号为一致观察对(C),异号为不一致观察对(D)。,15.1.1相关分析的指标体系,假定数值分布2为:xyCD110043803560274019200(xj-xi)(yj-yi)其中,i为定值,j为变值。同号为一致观察对(C),异号为不一致观察对(D)。,15.1.2一些基本概念,直线相关最简单的一种,两变量呈线性共同增大或者一增一减。曲线相关两变量存在相关趋势,但并非线性,而是呈各种可能的曲线趋势。,15.1.2一些基本概念,正相关A变量增加时B变量也增加与负相关A变量增加时B变量减小完全相关两变量的相关程度达到了亲密无间的程度,当得知A变量的取值时,就可以准确推算出B变量的取值
7、。又分为完全正、负相关。,15.1.3SPSS中的相应功能,SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一般包括以下三个过程: Bivariate过程Partial过程Distances过程,15.1.3SPSS中的相应功能,Bivariate过程此过程用于进行两个或多个变量间的参数或非参数相关分析,如果是多个变量,则给出两两相关的分析结果。这是Correlate子菜单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的95%以上。,15.1.3SPSS中的相应功能,Partial过程如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就
8、可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。,15.1.3SPSS中的相应功能,Distances过程(距离相关分析)调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行相似性或者不相似性(距离)分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。一般不单独使用,而是用于因子分析、聚类分析和多维尺度分析的预分析,以帮助了解复杂数据集的内在结构,为进一步分析做准备。,15.2简单相关分析,15.2.1方法原理15.2.2分
9、析实例15.2.3秩相关系数15.2.4Kendalls等级相关系数,15.2.1方法原理,用线性相关系数研究两个变量间的线性相关性。对(x,y)做n个观测,得到的样本记为(x1,y1),(xn,yn)。x,y的方差,15.2.1方法原理,x,y的协方差定义Pearson相关系数它也是标准化后的协方差,可以很好的反映相关程度的强弱,而且数值范围为-11,其正负反映了相关方向。,15.2.1方法原理,相关系数具有如下特点相关系数r是一个无单位的量值,且介于正负1之间。r0表示正相关,r0表示负相关。绝对值|r|越接近于1,说明线性相关性越好。绝对值|r|越接近于0,说明线性相关性越弱。,15.2
10、.1方法原理,适用条件两变量是由测量得到的连续成对的变量且呈线性关系。应该剔除极端值,减小其对相关系数的影响。两变量所来自的总体都应是正态分布,或接近正态的单峰对称分布,服从一个联合的双变量正态分布。,15.2.2分析实例,例15.1 上海医科大学儿科医院研究某种代乳粉的营养价值是用大白鼠做试验,得大白鼠进食量(g)和体重增重(g)间的关系的原始数据如下,试分析两者有无直线相关关系。数据见corr.sav,15.2.2分析实例,做散点图,发现两变量间存在明显线性相关趋势,且数据没有异常值。,15.2.2分析实例,AnalyzeCorrelate BivariateVariables:feed(
11、进食量),weight(体重增量)结果表明,进食量与体重增量间存在非常显著的正相关关系(p0.01)。即随着进食量的增加,体重也增加。,15.2.3秩相关系数,两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述. Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。,15.2.3秩相关系数,对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Spearman相关系数的计算公式可以完全套用Pea
12、rson相关系数计算公式,但公式中的x和y用相应的秩次代替即可。,15.2.4Kendalls等级相关系数,Kendalls tau-b等级相关系数用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验; 取值范围在-1与1之间。此检验适合于正方形表格;,15.3偏相关分析,15.3.1方法原理15.3.2分析实例,15.3.1方法原理,线性相关分析计算两个变量间的相关关系,分析两个变量间线性关系的程度。往往因为第三个变量的作用,使相关系数不能真正反映两个变量间的线性程度。偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响
13、的变量。,15.3.1方法原理,如身高、体重与肺活量之间的关系。如果使用Pearson相关计算其相关系数,可以得出肺活量与身高和体重均存在较强的线性关系。但实际上,如果对体重相同的人,分析身高和肺活量,是否身高越高,肺活量就越大呢?,15.3.1方法原理,不是的。原因是身高与体重有线性关系,体重与肺活量存在线性关系,因此得出身高和肺活量之间存在着较强的线性关系的错误结论。分析身高与肺活量之间的相关性,就要控制体重在相关分析中的影响。,15.3.1方法原理,实际生活中有许多这样的关系如可以控制年龄和工作经验两个变量的影响,估计工资收入与受教育程度之间的相关关系。可以在控制了销售能力与各种其他经济
14、指标的情况下,研究销售量与广告费用之间的关系等。,15.3.2分析实例,例15.2 研究者收集了一批汽车的资料,数据见auto.sav,现在希望分析汽车价格(price)和每加仑汽油可行驶千米数(mpg)间的相关关系。,15.3.2分析实例,如果直接使用两变量间的相关分析,会得出汽车价格和每加仑汽油可行驶千米数间存在负相关关系。即油耗越大的汽车价格越高。这个结果不合理,注意到汽车自重会影响到每加仑汽油可行驶的里程数,故应采用偏相关分析。,15.3.2分析实例,AnalyzeCorrelate PartialVariables(分析变量):price、mpgControlling for(控制变
15、量):weightOptions:Zero Order Correlations在给出偏相关系数的同时也给出包括协变量在内的所有变量两两相关的系数矩阵。,15.3.2分析实例,在没有控制重量的影响前,重量和价格、耗油量间均存在相关关系(p=0.0000.05,无统计学意义,即价格和汽车油耗的关系并不密切。汽车自重为混杂因素。,15.4Distances过程,15.4.1 距离测量与相似性测量的指标体系15.4.2分析实例,15.4Distances过程,Distances过程是对观测量之间或变量之间相似或不相似程度的一种测度,是一种广义的距离。有关的统计量不相似性测度(Dissimilarit
16、ies):连续型变量(等间隔(定距)数据) IntervalEuclid欧氏距离(Euclidean distance)欧氏距离平方(Squared Euclidean distance)等。,15.4Distances过程,有关的统计量不相似性测度(Dissimilarities) :频数表(计数)数据(Counts)卡方测距(Chi-square measure)二分类(只有两种取值)数据(Binary)欧氏距离(Euclidean distance)欧氏距离平方(Squared Euclidean distance)尺寸差异(Size difference)模式差异(Pattern difference)方差(Variance)等,15.4Distances过程,相似性测度(Similarities)等间隔数据(interval)Pearson相关(Pearson Correlation)余弦(Cosine)二分类变量(Binary)有20余种,