1、文本分类综述王 斌中国科学院计算技术研究所2002年 12月报告内容n 文本分类的定义和应用n 文本分类的方法n 文本分类的评估指标n 参考文献和资源文本分类的定义和应用定义n 给定分类体系,将文本分到某个或者某几个类别中。 分类体系一般人工构造 政治、体育、军事 中美关系、恐怖事件 分类系统可以是层次结构,如 yahoo! 分类模式 2类问题,属于或不属于 (binary) 多类问题,多个类别 (multi-class), 可拆分成 2类问题 一个文本可以属于多类 (multi-label) 这里讲的分类主要基于内容 很多分类体系 : Reuters分类体系、中图分类应用n 垃圾邮件的判定
2、(spam or not spam) 类别 spam, not-spamn 新闻出版按照栏目分类 类别 政治 ,体育 ,军事 ,n 词性标注 类别 名词 ,动词 ,形容词 ,n 词义排歧 类别 词义 1,词义 2,n 计算机论文的领域 类别 ACM system H: information systems H.3: information retrieval and storage文本分类的方法人工方法和自动方法n 人工方法 结果容易理解 足球 and 联赛 体育类 费时费力 难以保证一致性和准确性 (40%左右的准确率 ) 专家有时候凭空想象 知识工程的方法建立专家系统 (80年代末期 )
3、n 自动的方法 (学习 ) 结果可能不易理解 快速 准确率相对高 (准确率可达 60%或者更高 ) 来源于真实文本,可信度高文本分类的过程文本表示 训练过程分类过程训练文本统计统计量特征表示学习 分类器新 文本 特征表示类别特征抽取 (feature extraction)n 预处理 去掉 html一些 tag标记 禁用词 (stop words)去除、词根还原 (stemming) (中文 )分词、词性标注、短语识别、 词频统计 TFi,j: 特征 i在文档 j中出现次数,词频 (Term Frequency) DFi:所有文档集合中出现特征 i的文档数目,文档频率 (Document Frequency) 数据清洗:去掉不合适的噪声文档或文档内垃圾数据n 文本表示 向量空间模型n 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation, 如 LSI)文本表示n 向量空间模型 (Vector Space Model) M个无序标引项 ti (特征 ),词根 /词 /短语 /其他 每个文档 dj可以用标引项向量来表示 (a1j,a2j, aMj) 权重计算, N个训练文档 AM*N= (aij) 相似度比较 Cosine计算 内积计算