浙江大学医学院流行病与卫生统计学教研室 沈毅分类树与回归树分析决策树分类浙江大学医学院流行病与卫生统计学教研室 沈毅饮酒与产妇年龄发生早产的风险饮酒与产妇年龄发生早产的风险:低风险高风险浙江大学医学院流行病与卫生统计学教研室 沈毅 决策树的基本概念:决策树的基本概念:分类分类:决策树分为分类树分类树和回归树回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数(最小节点的大小,最大树的深度等等)来限制决策树的过拟合(overfiting)。过程:过程:通过递归分割的过程构建决策树通过递归分割的过程构建决策树。寻找初始分裂:整个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的。决定哪个属性(Field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。量化的标准是计算每个分裂的多样性(diversity)指标GINI指标。生成一棵完整的树:重复第一步,直至每个叶节点内的记录都属于同一类。数据的修剪:不同的算法有不同修剪规则(修剪成大小合适的树)。浙