概要w 简介w 决策树表示法w 决策树学习的适用问题w 基本的决策树学习算法w 决策树学习中的假想空间搜索w 决策树学习的常见问题简介w 决策树方法的起源是概念学习系统 CLS, 然后发展到 ID3方法而为高潮,最后又演化为能处理连续属性的 C4.5。 有名的决策树方法还有 CART和Assistant。w 是应用最广的归纳推理算法之一w 一种逼近离散值目标函数的方法w 对噪声数据有很好的健壮性且能学习析取表达式决策树的表示法w 决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能值图表达式决策树学习的适用问题w 实例是由属性 -值对表示的w 目标函数具有离散的输出值w 可能需要析取的描述w 训练数据可以包含错误w 训练数据可以包含缺少属性值的实例属性选择w 构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例子,可以有很多决策树能符合这组例子。人们研究出,一般情况下或具有较大概率地说,树越小则树的预测能力越强。要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。由于构造最小的树是 NP-难问题,因此只能采取用启发式策略选择好的逻辑判断或属性 。 用熵度量样例的均一性(纯度)w 熵的定义w 举例用信息增益度量期望熵最低