随机森林 随机森林的基本思想: 通过自助法(boot-strap)重采样技术,不断生成训练样本和测试样本,由训练样本生成多个分类树组成随机森林,测试数据的分类结果按分类树投票多少形成的分数而定。 随机森林有两个重要参数: 一是树节点预选的变量个数; 二是随机森林中树的个数。随机森林分类器组合 AdaBoosting(Adaptive Boosting) 对每个样本赋予一个权重,代表该样本被当前分类器选入训练集的概率,并根据预测函数的输出与期望输出的差异调整权重:如某个样本点已被正确分类,则它的权重减小,否则,它的权重增大;通过这种方式,使得学习算法能集中学习较难判别的样本。 经过T 轮训练,得到T 个分类函数 f1,f2,fT 及对应的权重 1, 2, T ,最终的分类规则为加权投票法 Bagging(Breiman,1996) 在训练的每一轮中,均从原始样本集S 中有放回地随机抽取训练样本集T (T 的样本个数同S ),这样一个初始样本在某轮训练中可能出现多次或根本不出现( S 中每个样本未被抽取的概率为( 1-1/|S|)|S|0.368 ,当|S| 很大时)。 最终的分类规则为简