精选优质文档-倾情为你奉上5-1 简述机器学习十大算法的每个算法的核心思想、工作原理、适用情况及优缺点等。1)C4.5 算法:ID3 算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3 算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。C4.5 算法核心思想是ID3 算法,是ID3 算法的改进,改进方面有:1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2)在树构造过程中进行剪枝3)能处理非离散的数据4)能处理不完整的数据C4.5 算法优点:产生的分类规则易于理解,准确率较高。缺点:1)在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。2)C4.5 只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。2)K means 算法:是一个简单的聚类算法,把n 的对象根据他们的属性分为k 个分割,k n。算法的核心就是要优化失真函数J,使其收敛到局部最小值但不是全局最小值。其中