文本分类综述 -1.ppt

上传人:da****u 文档编号:1106101 上传时间:2018-12-07 格式:PPT 页数:36 大小:413.50KB
下载 相关 举报
文本分类综述 -1.ppt_第1页
第1页 / 共36页
文本分类综述 -1.ppt_第2页
第2页 / 共36页
文本分类综述 -1.ppt_第3页
第3页 / 共36页
文本分类综述 -1.ppt_第4页
第4页 / 共36页
文本分类综述 -1.ppt_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、文本分类综述王 斌中国科学院计算技术研究所2002年 12月报告内容n 文本分类的定义和应用n 文本分类的方法n 文本分类的评估指标n 参考文献和资源文本分类的定义和应用定义n 给定分类体系,将文本分到某个或者某几个类别中。 分类体系一般人工构造 政治、体育、军事 中美关系、恐怖事件 分类系统可以是层次结构,如 yahoo! 分类模式 2类问题,属于或不属于 (binary) 多类问题,多个类别 (multi-class), 可拆分成 2类问题 一个文本可以属于多类 (multi-label) 这里讲的分类主要基于内容 很多分类体系 : Reuters分类体系、中图分类应用n 垃圾邮件的判定

2、(spam or not spam) 类别 spam, not-spamn 新闻出版按照栏目分类 类别 政治 ,体育 ,军事 ,n 词性标注 类别 名词 ,动词 ,形容词 ,n 词义排歧 类别 词义 1,词义 2,n 计算机论文的领域 类别 ACM system H: information systems H.3: information retrieval and storage文本分类的方法人工方法和自动方法n 人工方法 结果容易理解 足球 and 联赛 体育类 费时费力 难以保证一致性和准确性 (40%左右的准确率 ) 专家有时候凭空想象 知识工程的方法建立专家系统 (80年代末期 )

3、n 自动的方法 (学习 ) 结果可能不易理解 快速 准确率相对高 (准确率可达 60%或者更高 ) 来源于真实文本,可信度高文本分类的过程文本表示 训练过程分类过程训练文本统计统计量特征表示学习 分类器新 文本 特征表示类别特征抽取 (feature extraction)n 预处理 去掉 html一些 tag标记 禁用词 (stop words)去除、词根还原 (stemming) (中文 )分词、词性标注、短语识别、 词频统计 TFi,j: 特征 i在文档 j中出现次数,词频 (Term Frequency) DFi:所有文档集合中出现特征 i的文档数目,文档频率 (Document Frequency) 数据清洗:去掉不合适的噪声文档或文档内垃圾数据n 文本表示 向量空间模型n 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation, 如 LSI)文本表示n 向量空间模型 (Vector Space Model) M个无序标引项 ti (特征 ),词根 /词 /短语 /其他 每个文档 dj可以用标引项向量来表示 (a1j,a2j, aMj) 权重计算, N个训练文档 AM*N= (aij) 相似度比较 Cosine计算 内积计算

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。