1、Linear correlation线性相关,两指标间的关系分析,易洪刚,Department of Epidemiology & Biostatistics, School of Public Health Nanjing Medical University,直线相关分析(linear correlation analysis),1 问题的提出 the Relationship 2 确定性关系与相关关系3 相关关系4 散点图5 Pearson相关系数6 相关系数的计算7 相关系数的性质8 相关关系示意图9 相关系数的含义10 相关系数的假设检验11 总体相关系数的区间估计12 相关分析的正
2、确应用,问题的提出,以往方法的局限仅限于考察一个观察指标 昆明治疗羊角风医院http:/ 昆明军海医院癫痫病http:/ 昆明治疗羊角风医院http:/ 昆明治疗癫痫病比较好的医院http:/ the Relationship,Could you give me some examples about the relationship between two variables?,1 the Relationship Type One,1 the Relationship Type Two,2 确定性关系与相关关系,确定性的函数关系:两变量间的函数关系 。,随机性的相关关系:两变量在宏观上存在
3、关系,但并未精确到可以用函数关系来表达。,圆的周长与半径的关系: C2R 速度、时间与路程的关系:LST,青少年身高与年龄的关系; 体重与体表面积的关系;,相关关系与确定性关系(2),当对事物的规律了解加深时,相关关系可以转变为确定性关系。父亲患白化病X, (X=是,否);子女患白化病Y, (Y=是,否);X与Y的关系不确定。,当母亲患白化病时,X与Y的关系确定: X=是,则Y=是; X=否,则Y=否。 (父亲为异常基因的携带者出外。),3 相关关系,当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关(correlation)。两个变量有共变现象,称为有相关关系。,若两个
4、变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positive correlation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negative correlation)。,3 相关关系,直线相关(linear correlation),又称简单相关,用以描述两个呈正态分布的变量之间的线性共变关系,常简称为相关。,直线相关的概念,3 相关关系 The story,Sir Francis Galton 1822-1911 an explorer and anthropologist half-cousin of Charles Darwin,Her
5、edity experiments lead to initial concepts of correlation and regression.,Sweet peas experiment (1875) Symmetric studies of Stature (1885),3 相关关系 The story,Correlation exists between two variables when one of them is related to the other in some way.,3 相关关系 The story,4 Scatter plot (or scatter diagr
6、am)is a graph in which the paired (x,y) sample data are plotted with a horizontal x axis and a vertical y axis. Each individual (x,y) pair is plotted as a single point.,散点图(Scatter plot )在平面直角坐标系上标识两变量(x,y)间关系的统计图。,Figue 1 Plot of Diameter of Daughter Seed versus Diameter of Parent Seed from the dat
7、a in Table 1.,反映两定量指标间的相关关系用 Pearson 相关系数,r。 (Pearson correlation coefficient) 用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标.,Correlation analysis Analysis of the degree to which changes in one variable are associated with changes in another variable.,5 Pearson相关系数,5 Pearson相关系数,X 的离均差平方和:Y 的离均差平方和:X与Y 间的离均差积和:
8、,以下资料选自Galton的一项研究,目的是探讨成年时身高是否与两岁时的身高(单位:英寸)有关。,6 相关系数的计算,绘制散点图,Y 成年后身高(单位:英寸),X 2岁时的身高(单位:英寸),30,32,34,36,38,40,63,65,67,69,71,6 相关系数的计算,6 相关系数的计算,例10.1 10名3岁男童体重与体表面积的关系,编号 体重(X,kg) 体表面积(Y,103cm2)111.05.283211.85.299312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.075 1016.06.41
9、1 合计133.457.266,10名3岁男童体重与体表面积散点图,体重(kg),X,体表面积Y(103cm2),例10.1资料相关系数的计算,6 相关系数的计算,6 相关系数的计算,7 相关系数的性质,-1 r 1r0为正相关r0为负相关r0为零相关或无相关相关系数绝对值越大,两变量间相关程度越密切;相关系数越接近于0,表示相关越不密切。,8 相关关系示意图,r =-1,-1r 0,r =0,直线相关的图示与相关系数的关系,0r 1,r =1,相关系数的正负示意图,体重(kg),X,肺活量Y(L),相关系数的大小示意图,r = 1,0 r 1,r = 0,9 相关系数的含义(了解),协方差(
10、covariance,COV):两个变量与其均值离差乘积的平均数,是相互关系的一种度量。,样本协方差:,9 相关系数的含义(了解),对协方差的理解,协方差为大的正值时,表示强的正相关。,对协方差的理解,协方差接近于零时,表示很小或没有线性相关关系。,对协方差的理解,协方差为大的负值时,表示强的负相关。,对协方差的理解,-Are they right?,-Maybe.,cm,kg,mm,kg,大于,基本结论:协方差受计量单位影响,从而不能真实反映相关的程度。,相关系数:协方差与两变量标准差乘积的比值,是没有量纲的、标准化的协方差。,X,Y,10 相关系数的假设检验,0,H 0:0,亲代种子直径与
11、子代无相关关系;H 1: 0,亲代种子直径与子代有相关关系。 = 0.05。t 服从自由度为n-2的 t 分布。,10 相关系数的假设检验,Table 1 资料相关系数的假设检验,自由度102,P=0.0020拒绝H0,接受H1。可以认为亲代种子直径与子代之间有正相关关系,相关系数为0.93。,H 0:0,体重与体表面积无相关关系;H 1: 0,体重与体表面积有相关关系。 = 0.05。t 服从自由度为n-2的 t 分布。,例10.1资料相关系数的假设检验,例10.1资料相关系数的假设检验,自由度102,P0.001拒绝H0,接受H1。可以认为3岁男童体重与体表面积之间有正相关关系。,11 总
12、体相关系数的区间估计,从相关系数不等于0的总体中抽样,样本相关系数的分布是偏态的。,相关系数的抽样分布( = - 0.8),相关系数的抽样分布( = 0),相关系数的抽样分布( =0.8),R.A. Fisher(1921) 的 z 变换,z 近似服从均数为 ,标准差为 的正态分布。,相关系数的z 值的抽样分布( = - 0.8),相关系数的z 值的抽样分布( = 0),相关系数的z 值的抽样分布( = 0.8),相关系数的可信区间估计,将 r 变换为 z ;根据 z 服从正态分布,估计 z 的可信区间;再将 z 变换回 r 。,相关系数的可信区间估计,Fishers 变换 r z 正态近似
13、Fishers 反变换 的95CI z的95CI,该可信区间有什么含义?,例 某医院分别测定正常成年男子12人和正常成年女子12人的心率(X,次/分)与心脏左室电机械收缩时间QS(Y,毫秒)的数据见表10.2,试比较男子和女子的心率(次/分)与心脏左室电机械收缩时间QS(毫秒)的相关是否相同。,两个相关系数的比较(了解),两个相关系数的比较(了解),男女的心率和电机械收缩时间,分析思路:两组资料的相关性如何?两个相关系数是否相等?由于相关系数并不服从正态分布,因此对两个相关系数的差别的假设检验可以通过z变换的原理,对两个z变换值作假设检验得到。,24名成年男女的心率(X)与收缩时间(Y)的散点
14、图,男性 女性,分别对两相关系数是否为0进行假设检验。=122=10,则P10.001,P20.20,故尚不能认为男子和女子的心率与心脏左室电机械收缩时间间的相关系数不等。,等级资料的相关(了解),Spearman等级相关将各变量X,Y分别编秩RX, RY;计算RX与RY的Pearson相关;所得结果即为Spearman等级相关rS。-1rs1,例 抗白指数与临床疗效的关系,某研究所用野百合治疗白血病,并作抗白血病指数(简称抗白指数)及疗效的分析,问抗白指数与临床疗效间有无关系? 病例号 抗白指数X 临床疗效Y(1)(2)12+23+39+410+511+630735845955+1070+1
15、1881290,RX(3)123456789101112,RY(4)99911.511.53336.56.533,RX(3)123456789101112,RY(4)99911.511.53336.56.533,rs = = -0.6894,等级资料的相关(了解),等级相关的假设检验,H 0:S0,抗白指数与疗效无相关关系;H 1: S0,抗白指数与疗效有相关关系。 = 0.05。当n50时,用查“等级相关界值表”;当n50时,用 t 检验:t 服从自由度为n-2的 t 分布。,资料的假设检验,本例 n = 12, 查界值表,得: rs(0.05,12)=0.587即,若 H0 成立,则等级相
16、关系数有95%的可能在(-0.587,0.587)之间。现 rs = -0.6894,故 P 0.05。可以认为,抗白指数与疗效有等级相关关系。,例 母亲文化程度与儿童智商的关系,母亲文化程度 儿童智商等级 (Y)合计 (X) 中下中等中上上等 小学2281303136 初中5723613526454高中或中专1111210517245大专及以上1410722 合计9143328053857rs=0.2261,大样本时的等级相关检验,本例 n =857,大于50,用 t 检验:P0.01。可以认为,母亲文化程度与儿童智商等级间存在相关关系,母亲文化程度越高,儿童智商等级亦高。,相关关系不等于因
17、果关系; 相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系; 极端值可能影响相关系数; 注意相关关系成立的数据范围; 警惕虚假相关。,12 相关分析的正确应用,定量资料在进行相关分析(Pearson相关)前,需作散点图,从散点图的趋势判断是否可以作线性相关分析;,12 相关分析的正确应用,某地160名20岁男子身高与体重散点图(双变量正态分布),成都市男中小学生12个年龄组的平均身高,紫外光对新生小鼠背皮ATP酶阳性的郎格汉斯细胞(LC)照射不同时间的细胞密度(个/mm3),某肿瘤病人的生存率,大白鼠进食量(X,g)与体重增加(Y,g)的关系,免疫球蛋白A(IgA,g)与火箭电泳高度(Y,mm)的关系,26名病人的胃液的pH值及尿中亚硝酸盐浓度的散点图,尿中亚硝酸盐的浓度,胃液的pH值,建湖县19781985年疟疾逐月发病数,月份,月发病人数,我国19401988年间不同月份的男性婴儿死亡率()的季节性分析,男性婴儿死亡率(),月份,识别离群值;,P,Q,图10.5 离群值对相关的影响,12 相关分析的正确应用,排除间杂性。,(a),(b), 样本甲观察点 样本乙观察点,图10.6 样本的间杂性对相关性的误导,12 相关分析的正确应用,谢谢!,