误差与维数例子贝叶斯误差概率r增加,误差概率 减小 ,假设各特征独立:到 的马氏距离引入新的特征可使r增大,进而降低误差概率维度灾难在实际应用中当特征个数增加到某一个临界点后,继续增加反而会导当特征个数增加到某一个临界点后,继续增加反而会导致分类器的性能变差致分类器的性能变差“维度灾难维度灾难”(curse of dimensionality)原因?假设的概率模型与真实模型不匹配训练样本个数有限,导致概率分布的估计不准对于高维数据,“维度灾难”使解决模式识别问题非常困难,此时,往往要求首先降低特征向量的维度降维降低特征向量维度的可行性可行性特征向量往往是包含冗余信息冗余信息的!有些特征可能与分类问题无关无关特征之间存在着很强的相关性相关性降低维度的方法特征组合特征组合把几个特征组合在一起,形成新的特征特征选择特征选择选择现有特征集的一个子集降维降维问题线性变换线性变换 vs.非线性变换非线性变换利用类别标记(有监督有监督)vs.不用类别标记(无监督无监督)不同的训练目标最小化重构误差(主成分分析主成分分析,PCA)最大化类别可分性(线性判别分析线性判别分析,LDA)最小化分类误差(判别