1、相关系数矩阵的逆矩阵与行列式的内涵分析【摘要】相关系数矩阵是用于表现变量之间相关关系的统计分析工具。然而,多元变量之间的相关关系极易受各种复杂因素的影响,因此并不能仅仅依据该矩阵中的数值来解释变量间的关系。而利用偏相关系数则可以进一步地反映变量间的本质联系。本文系统研究了相关系数矩阵的逆矩阵与行列式中的深刻内涵,一方面讨论了相关系数矩阵的逆矩阵与偏相关系数之间的数量联系;另一方面,从数学上证明了相关系数矩阵的行列式与变量间各阶次偏相关系数的等式关系。此外,论文还进一步指出这些研究结论在多元线性回归建模中的指导意义。【关键词】相关系数矩阵偏相关系数多元线性回归分析中图分类号:O212.4 文献标
2、识码:A一、引言1877 年,Francis Galton 在一次演讲中用 “复原” (reversion)一词定义了甜豆苗母代与子代之间物理特性的关系 1,这是历史早期人们对相关性概念的理解。从那以后,许多科学家不断尝试,希望创造一种方法来测量两变量的相关性大小。Karl Pearson 在 1895 年提出了 Pearson 相关系数(Pearson Product-Moment Correlation Coefficient) ,并给出了计算公式。在此之后,人们又创造性地提出了若干种等价的计算方式。最有代表性的是 Rodgers和 Nicewander(1988) 2,他们在总结前人成果
3、的基础上,从 13 种不同的角度来解读Pearson 相关系数,为相关系数的广泛应用做出了重要贡献。在 Pearson 相关系数的基础上,关于相关性问题的深入研究也在不断继续。如 Fisher(1925) 3详细解释了偏相关系数、序列相关等;Lord (1968) 4说明了偏相关、复相关与多元线性回归的关系;国内的学者如马江洪(1994) 5在讨论多元线性回归分析中的复杂相关性问题时,推导了偏相关系数的计算公式;王海燕(2006) 6等比较了偏相关系数与标准化系数,得到了二者的数量关系和统计意义。除此之外,偏相关系数、半偏相关系数的区别和应用日益受到重视 7,8;相关分析、偏相关分析也逐步应用
4、于医学、信号处理等领域 9,10;尾部相关系数、多相关系数等延伸概念也被提出和解释 11,12。时至今日,Pearson 相关系数及与其有关的拓展应用,已成为仍然是统计上的重要方法领域的热点研究问题。 (“应用”不适合称为“方法” )本文以 Pearson 相关系数矩阵(以下简称为相关系数矩阵)为出发点,对相关系数矩阵的两种最基本的代数变换形式逆矩阵、行列式中隐含的信息进行研究。在文章的第二部分,通过一个实例说明了相关系数矩阵在解释多元相关关系时的缺陷;第三部分则系统讨论了相关系数矩阵的逆矩阵与偏相关系数之间的数量关系;第四部分重点研究了相关系数矩阵行列式所包含的内涵信息,从数学上证明了相关系
5、数矩阵行列式与变量间各阶次偏相关系数的等式关系;此外,还进一步讨论了这些研究结论对多元线性回归建模的指导意义。二、相关系数矩阵及其局限性为了充分认识研究相关系数矩阵与偏相关系数之间联系的重要性,本节将通过一个实例来说明相关系数矩阵的局限性。1.相关系数矩阵首先给出一些必要的数学符号。由于数据的中心化不会改变变量间的相关性,所以为叙述简便,如不特殊说明,本文以下提到的变量均是中心化数据(即每个变量的均值为 0) 。对于一个有 p 个变量和 n 个观测的数据集合 ,其中每一个变量12,pX=x。则 的相关系数矩阵 被记为:,12,njRxXR(1)121212ppprr =注意到每一个变量均为中心
6、化的,所以有 与 之间的简单相关系数 为,ixj ijr, (2Tijijr,12,p)对于矩阵 ,它有两个最基本的代数变换形式,即逆矩阵和行列式。本文将系统研究R这两种代数变换中所隐含的更加深刻的相关性信息。如果相关系数矩阵 是可逆矩阵,记 的逆矩阵 为:R1(3)1=ijp此外,将相关系数矩阵 的行列式记为 。2.相关系数矩阵的局限性在相关系数矩阵 中,每个元素 是两个变量 与 之间的简单相关系数。一般地,Rijrixj它可用于测量这两个变量之间的相关程度。然而值得注意的是,在多元分析问题中,由于变量之间的相关关系会受到更多交错复杂的因素影响,其相关程度往往无法从简单相关系数矩阵 中得到准
7、确的反映。例如,JoneNeter (1990) 曾利用一套脂肪数据来说明变量多重相关问题的隐蔽性和复杂性 13,14。这套数据中有 3 个变量,分别是三头肌皮褶厚度 ,大腿围长 、中臂围长 。1x2x3x这 3 个变量之间的简单相关系数矩阵 如表 1 所示:R表 1 脂肪数据的相关系数变量名称三头肌皮褶厚度 1x大腿围长 2中臂围长 3x三头肌皮褶厚度 1x1 0.9238 0.4578大腿围长 2x0.9238 1 0.0847中臂围长 30.4578 0.0847 1从表 1 看到的情形是,三头肌皮褶厚度 和大腿围长 之间的相关程度非常高;中臂1x2x围长 与其他 2 个变量的相关程度都
8、比较低,尤其是中臂围长 和大腿围长 ,二者相3x 32x关系数仅为 0.085。然而,这并不能推断中臂围长与其他两个变量之间不存在多重共线性。事实上,如果以 为因变量,以 为自变量,建立回归模型,则会得到一个测定系数312,x的回归方程:20.94R(4)3126.08.9.6085x从这个例子可以看出,在多元分析时,简单相关系数常常无法反映变量之间的本质联系。因此,仅依据简单相关系数矩阵 来解释变量之间的相关性是不可靠的。R三、 与偏相关系数之间的联系1为了更加准确地描述变量之间的相关关系,人们常利用偏相关系数来测量变量集合中复杂的相关关系。在本节中,将讨论偏相关系数与相关系数矩阵逆矩阵 之
9、间的联系。1R首先,简述偏相关系数的定义。对于 p 个变量的集合 ,12,ijpX =xx为了得到变量 与 的偏相关系数,首先用 对除 外的所有变量做回归,得到此回归ixj ixj方程的残差 ;接着,用 对除 外的所有变量做回归,得到此回归方程的残差 。记ieji je为变量集合 中除 和 外的其他所有变量的集合。将 与 的简单相关系,ijXXixj iej数记为 ,则称 为 与 关于 的偏相关系数。,ijijrx,ijijrij,ijXx从上述定义可见,偏相关系数是在控制某两个变量以外的其他变量对它们的影响之后, 计算这两个变量之间的相关关系。显然,它更加深刻地反映了变量之间的本质联系。马江
10、洪(1994)推导了由 的伴随矩阵内的元素计算偏相关系数的公式。由此可知,R偏相关系数可以由 中的元素计算求得。其具体计算方法是:当 矩阵可逆,则有偏相1 R关系数(5),ij ijij prXx公式(5)为计算偏相关系数提供了一种行之有效的方法。同时,也搭建了简单相关系数与偏相关系数之间的桥梁。事实表明,在多变量的场合下,由于变量之间存在错综复杂的关系,偏相关系数与简单相关系数在数值上可能会有很大的差异,有时甚至会出现符号相反的情况。例如,本文第二节中使用的脂肪数据,其偏相关系数值如表 2 所示:表 2 脂肪数据的偏相关系数变量名称三头肌皮褶厚度 1x大腿围长 2x中臂围长 3三头肌皮褶厚度
11、 1x1 0.9991 0.9951大腿围长 20.9991 1 -0.9939中臂围长 30.9951 -0.9939 1对比表 1 和表 2 中的数值,可以得到一些很不一样的结论。比如,如果从偏相关系数来看,中臂围长 与其他 2 个变量的相关程度都相当高。此外,当控制了变量三头肌皮褶3x厚度 后,中臂围长 与大腿围长 的偏相关系数为负值。由此可见,如果要更加准1 2x确地反映两个变量之间的内在联系,不能简单地计算相关系数,而是需要考虑偏相关系数 154,并将两者合理地配合使用。而从本节的分析可以看出,在 矩阵中包含了偏1R相关系数的计算要素,可以更深入地反映多变量分析中的共线性信息。四、
12、与各阶偏相关系数之间的联系R在上一节已得到相关系数矩阵的逆矩阵 1与多变量之间复杂的相关性之间的关系。本节将重点研究相关系数矩阵行列式 中所包含的丰富内涵信息。记 为 和 的简单相关系数(也叫做 0 阶偏相关系数) ; 为 和 关于1jrxj 2,1jrxj的 1 阶偏相关系数; 为 和 关于 的 2 阶偏相关系数;以此类2,1jr3,xj1(,)x推, 为 和 关于 的 阶偏相关系数。,12pr p12,p 笔者通过数学证明,得到公式(6):(6)22221,13,11,234pppjjjpjrrrrR上式的证明参见附录 1。由公式(6)可以看出 与 、 、 , 之间所存在的联系。jr2,1
13、j,jr1,2pr而且而且,根据行列式的计算性质,任意调换变量集合中 中 2 个变量,pX=x的位置,行列式值 R都不会发生改变。所以,公式(6)全面建立了相关系数矩阵行列式与各阶次偏相关系数之间的数量关系,反映了更为复杂的相关性信息。众所周知, 的取值情况会对多元分析问题有重要的影响。比如,在多元线性回归R建模过程中,设有自变量集合 和因变量 , 这些变量都是中心化的。12,pX=xY利用最小二乘方法,可以得到模型参数的估计值如下:(7)21pjj*TBRx其中, 为 的伴随矩阵。*TXT从公式(7)中看到, 处在分母的位置上。因此,如果 取值非常接近 0,则R的计算结果就不稳定,继而会造成
14、回归系数 计算结果的非稳健性。因此,结合公1/RB式(6) ,就可以具体指出影响回归建模稳健性的若干关键因素。首先,从公式(6)可以看出,在多元线性回归建模时,出现任意 2 个变量的简单相关系数过高,或者它们之间的任何阶次的偏相关系数过高,都会导致 几乎等于 0。例如在R脂肪数据的案例中,表 2 中的偏相关系数的绝对值都达到了 0.99 以上。再利用(6)式可以计算出,该相关系数矩阵的行列式 。=0.14R其次,如果进一步分别计算(6)式中的各个因子,还可以看出是哪些变量之间的复杂相关性对行列式 的影响最大。仍以脂肪数据为例,现将 的 3 个因子分解组合计算,RR结果如表 3 所示:表 3 脂
15、肪数据行列式 的因子分解21r23,1r2213,1rr0.1158 0.0121 0.0014由表 3 中可见,造成 几乎为 0 的主要原因是因子 的值过小,即是由偏相R23,1r关系数 的取值偏大造成。2,1r最后,从公式(6)还可以看出,当自变量的数量比较多时,即便不存在两两变量间的高度相关性,也会造成 非常接近 0。例如,在一个有 15 个自变量的回归模型中,即使所有自变量的简单相关系数和各阶次偏相关系数都只等于 0.3,仍会出现 等于 0.0047R的现象。所以,这也提醒人们,在多元线性回归建模工作中,一定要遵守参数节省原则,尽量删除不必要的自变量,减少自变量的数量。五、总结相关系数
16、矩阵 是多元统计分析中的一个常用工具。 矩阵有两个最基本的代数变RR换形式,一个是逆矩阵 ,另一个是行列式 。本文通过分析 和 与偏相关系数1 1之间的数量关系,展现了相关系数矩阵中所隐含的丰富内涵信息。研究表明,从相关系数矩阵中,不但可以直接得到两两变量之间的简单相关系数,还可以发掘出变量之间各种复杂的偏相关关系。本文研究从数学理论层面上,进一步揭示了相关系数矩阵定义的深刻意义。此外,本文还指出,在多元分析的应用研究中,可以运用文中研究结论,来识别变量集中多重共线性的形成原因,并明确危害建模效果的一些实质性因素。由此可见,本文的研究结论在多元分析建模中具有十分重要的应用价值。参考文献:1Ka
17、rl Pearson,F.R.S.NotesOn The History Of Correlation.Biometricians and Mathematical StatisticiansJ,1920, 14:44-45.2J. L. Rodgers and W. A. Nicewander. Thirteen ways to look at the correlation coefficient. The American StatisticianJ,1988,42(1):5966.3Ronald A. Fisher .Statistical Methods For Research W
18、orkersM.Edinburgh:Oliver and Boyd,1925.4M.罗德 , R.诺维克.心里测验分数的统计理论M.福州:福建教育出版社,1991.5马江洪.关于多元线性回归方程的一些问题J. 西安公路学院学报 ,1994,第 1 期:89-94.6王海燕,杨方廷,刘鲁.标准化系数与偏相关系数的比较与应用 J.数量经济技术经济研究,2006,第 9 期:150-155.7姚俊.半偏相关系数的计算公式及其应用J. 统计与决策 ,2011,第 2 期:156-158.8林春艳,陆嫚丽.半偏相关系数的理论介绍及其初步应用 J.统计与决策,2006,第 7 期:150-152.9易东,
19、陈军,刘岭,张彦琦,陈品一,伍亚舟,赵增炜.相关系数的正确理解和表达 J.重庆医学,2011,第 34 期:3518-3519.10 徐维超.相关系数研究综述J. 广东工业大学学报,2012, 第 3 期:12-16.11李秀敏,江卫华.相关系数与相关性度量J. 数学实践与认识 ,2006, 第 12 期:188-192.12章舜仲,王树梅.相关系数矩阵与多元线性相关分析J.大学数学,2011,第 1 期:195-198.13约翰.内特,威廉.沃塞曼,迈克尔.H. 库特纳.应用线性回归模型M.北京:中国统计出版社,1990. 14王惠文.偏最小二乘回归方及其应用M. 北京: 国防工业出版社,1
20、999.145严丽坤.相关系数与偏相关系数在相关分析中的应用J.云南财贸学院学报,2003,第 3 期:78-80.Analysis on the Inverse of Correlation Coefficient Matrix and the Determinant of Correlation Coefficient Matrix【Abstract】The sample correlation coefficient matrix is used formanifesting the relationship between variables. However, due to mult
21、ivariable variantsrelationship is easily affected by some complicated factors, judging by the sample correlation coefficient matrix only is unadvisable. Partial correlation coefficient can further reflect the essence of the contact. The paper indicates a systematic analysis of the implied informatio
22、n, lying in both the Inverse of Correlation Coefficient Matrix and the Determinant of Correlation Coefficient Matrix. The connection between the sample correlation coefficient matrix and the partial correlation coefficient has been discussed. Also a quantitativerelationshipbetween the determinant of
23、 sample correlation coefficient matrix andpartial correlation coefficients of each order is achieved. Furthermore, the paper indicates the significance of the proposed theoryin multiple regressionmodeling.Keywords: the correlation coefficient matrix; the partial correlation coefficient; multiple linear regression analysis附录 1:公式(6)的证明: 123123 31231221321 33221311(p-)12, ,3,12j=-=-()ppppppppjrrrrrrrrrR 312,13, (p-1)4,12,33,2,1,43,12, 4,2j= 23,12, ,1(p-)2221,1-()- -pp ppjpppjjj rrr rr 223,11,234jpr由此,公式(6)得证。