数据仓库与数据挖掘技术数据仓库与数据挖掘技术 五邑大学信息学院五邑大学信息学院五邑大学信息学院五邑大学信息学院 2009.062009.06何国辉何国辉何国辉何国辉 教授教授教授教授1/7/20231 第5章章 决策树和决策规则决策树和决策规则 5.1 引例引例 n分类的定义n分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。1/7/20232AgeSalaryClass30highc125highc221lowc243highc118lowc233lowc1描述属性描述属性类别属性类别属性分类问题使用的数据集格式:分类问题使用的数据集格式:1/7/202335.1 引例n分类问题使用的数据集格式n描述属性可以是连续型属性,也可以是离散型属性;而类别属性必须是离散型属性。n连续型属性是指在某一个区间或者无穷区间内该属性的取值是连续的,例如属性“Age”n离散型属性是指该属性的取值是不连续的,例如属性“Salary”和“Class”1/7/202345.1 引例n分类问题使用的数据集格式n分 类 问 题 中 使 用