引言 变量太多会增加计算的复杂性 变量太多给分析问题和解释问题带来困难 变量提供的信息在一定程度上会有所重叠 用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息,降维的思想来处理高维数据。第1页/共126页4.1 主成分分析 主要目的: 对原变量加以“改造”,在不致损失原变量太多信息的条件下尽可能地降低变量的维数,即用较少的“新变量”代替原来的各变量。第2页/共126页第3页/共126页4.1.2 总体主成分 设 为某实际问题所涉及的 个随机变量。记 ,其协方差矩阵为 它是一个 阶非负定矩阵。设 为 个常数向量,考虑如下线性组合:第4页/共126页总体主成分 易知有 我们希望用 代替原来 个变量 ,这就要求 尽可能地反映原来 个变量的信息。这里用方差来度量。即要求 达到最大。 对任意常数 ,若取 ,则 。 第5页/共126页总体主成分 因此,必须对 加以限制,否则 无界。最方便的限制是要求 具有单位长度,即我们在约束条件 之下,求 使 达到最大,由此 所确定的随机变量 称为 的第一主成分。 第6页/共126页总体主成分 如果第一主成分 还不足以反映原变量的信息,进一步求 。