例:构造决策树。 下表给出了取自AllElectronics 顾客数据库元组训练集。 编 号 年龄 收入 学生 信用等级 类别 :购买电脑 1 =30 高 否 一般 不会购买 2 40 中等 否 一般 会购买 5 40 低 是 一般 会购买 6 40 低 是 良好 不会购买 7 3140 低 是 良好 会购买 8 =30 中等 否 一般 不会购买 9 40 中等 是 一般 会购买 11 40 中等 否 良好 不会购买 解:由题意可知: s 14,类标号属性“购买电脑”有两个不同值(即会购买,不会购 买),因此有两个不同的类(即m 2)。设类C 1 对应于“会购买”,类 C 2 对应于“不会购买”。则s 1 9,s 2 5,p 1 9/14 ,p 2 =5/14 。 计算对给定样本分类所需的期望信息: 计算每个属性的熵。 先计算属性“年龄”的熵。 对于年龄“=30” :s 11 2,s 21 3,p 11 =2/5 ,p 21 =3/5 , 对于年龄“3140”: s 12 =4 ,s 22 =0 ,p 12 =4/4=1 ,p 22 =0 , 对于年龄“40” :s 13 =3 ,s