1、第二章 机器学习 及数据 挖掘 常用技术王斌中国科学院信息工程研究所大数据核心技术之 数据挖掘与机器学习技术探索及应用目录分 类聚 类回 归推荐分类基本概念什么是分类? 简单地说,分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)男 女为什么要分类? 人类社会的固有现象:物以类聚、人以群分 相似的对象往往聚集在一起 (相对而言 )不相似的对象往往分开 方便处理!分类非常普遍 性别、籍贯、民族、学历、年龄等等,我们每个人身上贴满了 “标签 ” 我们 从孩提开始就具有分类能力:爸爸、妈妈;好阿姨、坏阿姨;电影中的好人、坏人等等。
2、分类 无处不在,从现在开始,我们可以以分类的眼光看世界 文本分类 文本分类 (Text classification或者 Text Categorization):给定分类体系 (还有训练语料 ),将一篇文本分到其中一个或者多个类别中的过程。 分类体系:随应用不同而不同。比如:垃圾 vs. 非垃圾、体育/经济 /军事 等等 文本分类的类型: 按类别数目: binary vs. multi-class:二类问题 vs. 多类问题 按每篇文档赋予的标签数目: sing label vs. multi label:单标签 vs. 多标签问题一个文本分类任务:垃圾邮件过滤From: Subject:
3、real estate is the only way. gem oalvgkayAnyone can buy real estate with no money downStop paying rent TODAY !There is no need to spend hundreds or even thousands for similar coursesI am 22 years old and I have already purchased 6 properties using themethods outlined in this truly INCREDIBLE ebook.Change your life NOW !=Click Below to order:http:/ 方法之一 : 手工方法Web发展的初期, Yahoo使用人工分类方法来组织 Yahoo目录,类似工作还有: ODP、 PubMed等 优点: 如果 是专家来分类精度会非常高 如果问题规模和分类团队规模都很小的时候 , 能够 保持 分类结果的一致性 缺点: 代价昂贵 难以进行规模扩展 因此 ,需要自动分类方法