集成学习1. 集成学习简介1) 通过构建并结合多个学习器来完成学习任务:先产生一组“个体学习器”(individuallearner),再用某种策略将它们结合起来。其中每个IL由一个现有的学习算法从训练数据中产生,如:C4.5决策树算法、BP神经网络等。2) 性能:集成学习器的能力和个体学习器有很大关系,个体学习器本身在具有一定彳隹确性”的同时,还要有“多样性”,学习器间要具有差异。产生并结合“好而不同”的个体学习器恰恰是集成学习的核心3) 基学习器第一种就是所有的个体学习器都是一个种类的,或者说是同质的。比如都是决策树个体学习器,或者都是神经网络个体学习器。第二种是所有的个体学习器不全是一个种类的,或者说是异质的。本文所讲得Boosting和Bagging方法的基学习器都是同质的。其中:Boosting方法的个体学习器间存在强依赖关系、必须串行生成的序列化方法。集成方式一般为加权和,分类器权重并不相等,使用所有样本。Bagging方法的个体学习器间不存在强依赖关系、可同时生成的并行化方法,集成方式为投票分类器权值是一样的,随机抽取部份样本。如Bag