一、主成分分析的基本原理 v 假定有n个样本,每个样本共有p个变量, 构成一个np阶的数据矩阵 (1) v降维处理! 当p较大时,在p维空间中考察问题比较麻烦 。 降维是用较少的几个综合指标代替原来较多 的变量指标,而且使这些较少的综合指标既 能尽量多地反映原来较多变量指标所反映的 信息,同时它们之间又是彼此独立的。定义:记x 1 ,x 2 ,x P 为原变量指标,z 1 ,z 2 ,z m (mp)为新变量指标 (2) v 系数lij的确定原则: zi与zj( ij;i,j=1,2,m )相互无关; z 1 是x 1 ,x 2 ,x P 的一切线性组合中方差最大者,z 2 是与 z 1 不相关的x 1 ,x 2 ,x P 的所有线性组合中方差最大者; z m 是与z 1 ,z 2 ,z m1 都不相关的x 1 ,x 2 ,x P, 的所有 线性组合中方差最大者。 则新变量指标z 1 ,z 2 ,z m 分别称为原变量指标x 1 ,x 2 , ,x P 的第一,第二,第m主成分。 从以上的分析可以看出,主成分分析的 实质就是确定原来变量x j (j=1,2 , p) 在诸主成分z i