1、集成学习算法理论研究 【摘要】集成学习的核心思想就是集成多个基学习器,并组合它们的预测结果,以形成最终的结论。目前对集成学习没有明确的分类。数据集通常由特征向量构成,其中每个特征向量都使用一个特征集合对一个对象进行描述。 【关键词】集成学习 基学习器 Adaboost Bagging 基学习器:通常是指预测模型,机器学习的任务就是在一个数据集上,构建或发现相应的结构模型,如一个决策树,一个神经网络,一个支持向量机等。从数据生成模型的过程称为学习或训练,通常由一个学习算法完成( accomplish)。学习模型又可以称为假设,在本论文中也称为一个基学习器。学习算法的设置多种多样,通常分为监督学习
2、算法与非监督学习算法。监督学习算法的目标是预测未知类标签实例的所属类,通过学习得到的模型称为一个预测器。 基学习器的学习:其主要任务模式识别与数据挖掘,及从数据集上构建出好的学习模型。 学习过程形式化定义如下 记 X表示实例空间, D是 X的分布函数, f是正确的( gronud- truth)目标函数。给定数据集 D=( x1, y1),( x2, y2), ,( xm,ym) ,且 yi=f( xi)其中实例 xi 独立同分布,以分类作为示例,其目标是构建一个基学习器,实现泛化误差最小化,即 err( h) =Ex-Dh ( x) f( x) 。 一、典型的基学习器算法 (一)线性辨别分析
3、 一个线性辨别基学习器由权值 , a与偏移值 b 构成。给定实例 x,依据下式得到预测类标签 y,即 y=sign( w.x+b)。线性辨别分析的分类过程分两步。第一步,通过权值向量,将实例空间映射到一维空间(即线性空间),线上的点用于区分正类与负类。 (二)决策树 决策树通常是迭代式学习算法,迭代的每一步,将给出一个数据集,选择一个分裂点,在用该分裂点将数据集划分成子集,将每一个子集作为下一次迭代所要用的一个数据集。决策数算法的关键是如何选择分裂点。著名的决策树算法 ID3( Quinlan, 1998), C4.5( Quinlan, 1993), CART( Breiman et al.
4、, 1984)等。 (三)神经网络 神经网络也称人工神经网络,源于对生物神经网络的模拟。神经网络的功能由神经元模型,网络结构与学习算法共同决定。神经元也称为单元,是神经网络的基本计算组件。最流行的神经元模型是 Mccullochpitts 模型( M-P 模型),在此模型中,首先用输入信号与对应的连接权值相乘,然后汇集信号,并与阈值(神经元的偏移值)相比较。如果汇集的信号大于阈值,则该神经元将被激活,最后通过激活函数(也称为传输函数或压缩函数)生产输出信号。 (四)朴素贝叶斯公式 朴 素贝叶斯公式是实现测试实例分类方法的概率模型,对不同 y的后验概率 P( yx )进行估计,用最大的后验概率值
5、作为最终的预测结果,即最大后验概率规则( MAP)。 (五) k-近邻算法( knn) Knn 算法所依赖的准则是:如果对象在输入空间中是相似的,则在输出空间中对象也是相似的。该算法属于懒惰学习方式,因为它没有明确的训练过程,而只是简单的存储训练集。对于一个测试实例, knn 算法鉴定出与该测试实例最近的 k个实例。对于分类,测试实例将被归类于 k个实例的多数类。在回归分析中,测试实例将被赋予 k 个实例 的平均值。 (六)支持向量机 支持向量机( SVMs)( Cristianini and shawe-Taylor, 2000)是最大间隔基学习器,即用最大间隔超平面划分不同类的实例。最初设
6、计出的 SVM被用于解决二分类问题,间隔定义成不同类实例到分类超平面之间的最小距离。 二、对基学习器的评估 通常情况下,我们有多个备用的学习算法可供选择,并且有一些参数可供调整。选择最好的算法,并设置对应的参数,称为模型选择,为此我们需要估计基学习器的性能。通过实证的方式评估基学习器的性能 时,通常需要设计实验,统计假设检验与模型比较。 三、典型集成学习算法 (一) Boosting 集成学习算法 Boosting 指的是一系列算法,这些算法能够将弱学习器提升成强学习器。直观地说,弱学习器的性能仅略好于随机猜测,而强学习器却近于有完美的性能,几乎可以完全正确的处理所有样本实例。 Boostin
7、g 算法源于回答 kearn 与 valiant 所提出的一个有趣理论问题( 1989),即能够被弱学习器解决的问题问题与能够被强学习器解决的问题是否等同。该问题很重要,因为如果答案是肯定的 ,则表明弱学习器都能够潜在的被提升成一个强学习器,而在现实应用中,同获取强学习器相比,获取弱学习器相对容易得多。 Schapire( 1990)证明,该问题的答案是肯定的,证明的过程就是构建的过程,即 boosting过程。因此,称 boosting算法是当今机器学习领域中,最重要的集成算法之一。 (二) Adaboost 集成学习算法 AdaBoost 是最流行的 boosting 算法。 AdaBoo
8、st 产生一组基学习器,并通过权值多数投票法整合基学习器所预测的结果。通过训练学习算法产生基学习器,更 新训练数据集的分布,使用的训练实例取自于被反复迭代更新分部的。更新训练数据集的分布,通过随机抽取样本实例,训练学习算法产生基学习器。更新数据集的分布能够确保,被前一个基学习器误分类的实例,能够最大可能的被放到下一个基学习器的训练子集中。随着对基学习器的训练,所用的样本实例趋向于增加难于分类的样本实例。 (三) Bagging 集成学习算法 Bagging 主要由两个关键要素:引导( bootstrap)与聚集( aggregation)组成。 bagging 算法简单明了,易于实现,并且性能
9、特别好。 Bagging 算法采用 bootstrap可重复抽样的方式生成多样化的基学习器。换句话说,该算法应用 bootstrap 采样法( Efron and Tibshi- Rani, 1993)从整个数据集中随机抽取数据子集,再用这些数据子集训练基学习器,最后用多数投票法整合基学习器所得结果,输出结论。具体而言,给定一个包含 m个训练样本的数据集,通过可替换采样方式生成新的 m个训练样本。一些原始的样本在新数据集中会出现多次,而另外一些原始的样本将不会出现一次。将该过程运行 T次,便可以获得 m个训练样本。然后应用基学习器算法,在各个 样本上训练基学习器,最后整合所得结果,测试期间,针
10、对特定的样本实例,采用大多数基学习器的投票结果作为所属的类。 (四)随机森林集成学习算法 随机森林( RF)( Breiman, 2001)是一种具有代表性的流行集成算法。RF是 bagging算法的扩展与变种,由决策树构建而成。似于 bagging算法,RF的参数,可由训练数据集的 bootstrapped 复制得到,这些参数也可以是不同的特征子集,这类似于随机子空间方法。与 bagging的最大不同点在于RF 融入了随机化的特征选择。构建决策树组件期 间,在每一步的分裂选择中, RF 首先随机选择一个特征子集,然后在选出的特征子集上,执行常规的分裂选择程序。 (五) VR-树集成学习算法
11、RF 在各个节点上通过选择一个特征子集,生成随机决策树,而在选中的特征子集范围内的分裂选择仍是确定的。 VR-树集成算法通过随机化特征选择过程与分裂选择过程,生成随机决策树。 VR-树集成算法的基学习器是VR-树。在树的各个节点上,投掷硬币,正面朝上的概率是 。如果投掷结果是正面朝上,则构建一个确定的节点,即采用传统的决策树方式,从所有可能的分裂节点中,选出最好 的分裂节点。否则,构建一个随机节点,即随机选择一个特征,然后在此特征上,随机选择一个节点进行分裂。 (六)层叠泛化集成学习算法 层叠泛化算法简称 stacking。与 bagging 与 boosting 算法不同的是,stackin
12、g 可能(或在正常情况下)集成不同类型的学习模型。 该算法总体过程如此下所示: ( 1)将训练集拆分成两个不相交的训练集。 ( 2)在第一个训练集上训练几个基学习器。 ( 3)在第二个训练集上测试所训练的基学习模型。 ( 4)将步骤 3 的 预测作为输入,对响应的修正作为输出,训练高层次的学习模型。 注意,步骤 1-3与交叉验证一样,但不用赢家通吃的方式,基学习器的集成可能采用非线性的方式。 四、小结 本文对集成学习算法理论进行了研究,给出了集成学习的基本概念,典型的基学习器算法与经典的集成学习算法。 参考文献: 刘培,杜培军,谭琨等 .一种基于集成学习和特征融合的遥感影像分类新方法 J.红外
13、与毫米波学报, 2014,( 3) . 唐伟,周志华 .基于 Bagging 的选择性聚类集成 J.软件学 报, 2005,( 4) . 邵珠宏,欧阳军林,廖帆等 .基于局部特征和集成学习的鲁棒彩色人脸识别算法 J.东南大学学报(自然科学版), 2015,( 2) . 张虎,谭红叶,钱宇华 .基于集成学习的中文文本欺骗检测研究 J.计算机研究与发展, 2015,( 5) . 徐涛,杨奇川,吕宗磊 .一种基于动态集成学习的机场噪声预测模型 J.电子与信息学报, 2014,( 7) . 刘克文,蒲天骄,周海明 .风电日前发电功率的集成学习预测模型 J.中国电机工程学报, 2013,( 34) .
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。