精选优质文档-倾情为你奉上33. 主成分分析(一)原理一、基本思想主成份分析,是数学上对数据降维的一种方法,是将多个变量转化为少数综合变量(集中了原始变量的大部分信息)的一种多元统计方法。其主要目的是将变量减少,并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大),使得原始资料在这些成份上显示最大的个别差异来。在所有的线性组合中所选取的F1应该是方差最大的,称为第一主成分。如果第一主成分不足以代表原来所有指标的信息,再考虑选取第二个线性组合F2, 称为第二主成分。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)0. 依此类推可以构造出第三、第四、第p个主成分。主成份分析,可以用来综合变量之间的关系,也可用来减少回归分析或聚类分析中的变量数目。二、基本原理 设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,Xp,得到原始数据资料阵:其中,Xi = (x1i,x2i,xni)T,i = 1, , p.用数据矩阵X的p个列