1、 主成分的计算步骤 数据的标准化处理 设有 n 只待样本单位,每只单位有 p 个指标,则有矩阵 pnijxX )( ,其中 ijx 表示第 i 单位的第 j 指标值。矩阵 X表示如下: ),( 21212222111211pnpnnppXXXxxxxxxxxxX 对上述数据进行标准化处理,标准化处理的计算公式如下: jxjijijxxz ),2,1,( pjiji 其中 jx 是 jX 的算数平均数,jX是 jX 的标准差。并记 pnijzZ )( 为标准化之后的数据矩阵。 计算标准化数据的协方差矩阵 变量 ),( 21 pzzzZ 中变两两的相关系数的计算公式是 nk kjikij zznr
2、 111 ),2,1,( pji 由于 Z 中的变量已是标准化的变量,此时 Z 的列变量的协方差矩阵就是相关系数矩阵。 pppppprrrrrrrrrR212222111211 计算 R的特征根和特征向量 相关矩阵 R的特征方程为: 0 IR ,利用特征方程可以求出矩阵R的特征根 j( pj ,2,1 )。将特征根从小到大进行排列 p 21 ,再由特征多项式 iii uRu , 21 ),( ipiii uuuu 求出相应的特征向量21 ),( ipiii ,以特征向量的分量值为权数,将标准化的指标进行加权就得到第 i 个主成分。 pipiii zzzY 2211 ),2,1( pi 计算主成
3、分的方差贡献率及累计方差贡献率 相关矩阵 R 的特征 根就等于对应的主成分的方差,其大小反映了第i 个主成分所包含原始数据全部信息的比重,也反映了各主成分贡献的大小。定义第 i 个主成分的方差贡献率为 pi ikk1 ,累计方差贡献率 pi iki i 11 ,方差贡献率 k 越大表明第主成分综合变量21 ),( pXXXX 信息的能力越强,也就是由 XuY ii 的差异来解释变量21 ),( pXXXX 的差异的能力越强,累计贡献率越大表明前 k 个主成分包含原始信息越多。 选取主成分的个数 主成分分析的目的之一是为了减少变量的个数,即把最初的 p 个变量转化为少数的几个综合变量,而且这几个
4、少数的综合变量还要尽可能的保留原属数据的信息,从而减少分析的工作量。所以在选取主成分的个数时,一般不会选取全部的 p 个主成分,而是取 pm 个主成分,m 取多少比较合适,这是一个很实际的问题,一方面 m 尽量取的大些,以使选取的主成分能够尽量多的包含原来变量的信息,另一方面 m 又不能太大, m 越大表明主成分的个数越多,不能做到简化分析的目的。m 的取值可以兼顾变量的个数和累计 贡献率两个方面,一般是以所取的 m 使得累计贡献率达到 85%以上为宜。 对主成分进行经济分析 确定了 m 个主成分之后,要对主成分进行经济分析。经济分析是确定主成分的经济含义。在主成分 pipiii zzzY 2
5、211 的表达式中,取值大的系数表明这个主成分包含对应变量的信息就越多,主成分的经济含义就是在主成分表达式中系数大的变量含义的综合,因此可以根据这个原则来确定主成分的经济解释。 计算主成分得分 将标准化 的数据 21 ),( pzzz 带入到主成分的表达式中,得到第 i 个主成分的得分,根据主成分得分的大小就可以分析各个样本单位在各个主成分方面的表现。 进行综合排序 每一个主成分表示了分析对象在某一方面的表现。选取的 m 个主成分代表了分析对象的绝大部分信息,对主成分进行综合分析就是相当于对分析对象的全部进行综合分析。以 m 个主成分各自的方差贡献率(特征根)为权数 ,将 m 个主成分进行加权平均,加权平均的公式为: )/()( 212211 mmm YYYF 或 )/()( 212211 mmm YYYF 求得主成分的综合得分 F,这个综合得分是在保留了绝大部分信息的情况之下的得分,其大小可以反映分析对象的综合表现。按照主成分得分的大小,确定出各个对象的表现,达到排名的目的。