.主成分分析专题1 引言我们在作数据分析处理时,涉及的样品往往包含有多个测量指标(比如个指标),较多的指标会带来分析问题的复杂性。然而,这些指标彼此之间常常存在着一定程度的、有时甚至是相当高的相关性,这就使含在观测数据中的信息在一定程度上有所重叠。主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。这些综合指标能够反映原始指标的绝大部分信息,它们通常表示为原始个指标的某种线性组合。为了使这些综合指标所含的信息互不重叠,应要求它们互不相关。例如,考虑2的情形,假设共有个样品,每个样品都测量了两个指标,它们大致分布在一个椭圆内。如图所示。显然,在坐标系中,个点的坐标和呈现某种线性相关性。我们将该坐标系按逆时针方向旋转某个角度变成新坐标系,这里是椭圆的长轴方向,是短轴方向。旋转公式为易见,个点在新坐标系下的坐标和几乎不相关。和称为原始变量和的综合变量,个点在轴上的方差达到最大,即在此方向上所含的有关个样品间差异的信息是最多的。因此,若欲将二维空间的点投影到某个一维方向,则选择轴方向能使信息的损失降低到最小。我们称轴为第一主成分,而