第二章-机器学习及数据挖掘常用技术.pptx

上传人:99****p 文档编号:1419666 上传时间:2019-02-25 格式:PPTX 页数:219 大小:4.02MB
下载 相关 举报
第二章-机器学习及数据挖掘常用技术.pptx_第1页
第1页 / 共219页
第二章-机器学习及数据挖掘常用技术.pptx_第2页
第2页 / 共219页
第二章-机器学习及数据挖掘常用技术.pptx_第3页
第3页 / 共219页
第二章-机器学习及数据挖掘常用技术.pptx_第4页
第4页 / 共219页
第二章-机器学习及数据挖掘常用技术.pptx_第5页
第5页 / 共219页
点击查看更多>>
资源描述

1、第二章 机器学习 及数据 挖掘 常用技术王斌中国科学院信息工程研究所大数据核心技术之 数据挖掘与机器学习技术探索及应用目录分 类聚 类回 归推荐分类基本概念什么是分类? 简单地说,分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)男 女为什么要分类? 人类社会的固有现象:物以类聚、人以群分 相似的对象往往聚集在一起 (相对而言 )不相似的对象往往分开 方便处理!分类非常普遍 性别、籍贯、民族、学历、年龄等等,我们每个人身上贴满了 “标签 ” 我们 从孩提开始就具有分类能力:爸爸、妈妈;好阿姨、坏阿姨;电影中的好人、坏人等等。

2、分类 无处不在,从现在开始,我们可以以分类的眼光看世界 文本分类 文本分类 (Text classification或者 Text Categorization):给定分类体系 (还有训练语料 ),将一篇文本分到其中一个或者多个类别中的过程。 分类体系:随应用不同而不同。比如:垃圾 vs. 非垃圾、体育/经济 /军事 等等 文本分类的类型: 按类别数目: binary vs. multi-class:二类问题 vs. 多类问题 按每篇文档赋予的标签数目: sing label vs. multi label:单标签 vs. 多标签问题一个文本分类任务:垃圾邮件过滤From: Subject:

3、real estate is the only way. gem oalvgkayAnyone can buy real estate with no money downStop paying rent TODAY !There is no need to spend hundreds or even thousands for similar coursesI am 22 years old and I have already purchased 6 properties using themethods outlined in this truly INCREDIBLE ebook.Change your life NOW !=Click Below to order:http:/ 方法之一 : 手工方法Web发展的初期, Yahoo使用人工分类方法来组织 Yahoo目录,类似工作还有: ODP、 PubMed等 优点: 如果 是专家来分类精度会非常高 如果问题规模和分类团队规模都很小的时候 , 能够 保持 分类结果的一致性 缺点: 代价昂贵 难以进行规模扩展 因此 ,需要自动分类方法

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。