基于卡方特征选择和LDA主题模型的中文短文本分类11页.doc

上传人:晟*** 文档编号:6652098 上传时间:2021-09-11 格式:DOC 页数:11 大小:24KB
下载 相关 举报
基于卡方特征选择和LDA主题模型的中文短文本分类11页.doc_第1页
第1页 / 共11页
基于卡方特征选择和LDA主题模型的中文短文本分类11页.doc_第2页
第2页 / 共11页
基于卡方特征选择和LDA主题模型的中文短文本分类11页.doc_第3页
第3页 / 共11页
基于卡方特征选择和LDA主题模型的中文短文本分类11页.doc_第4页
第4页 / 共11页
基于卡方特征选择和LDA主题模型的中文短文本分类11页.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

基于卡方特征选择和LDA主题模型的中文短文本分类 摘要:中文短文本自身包含词汇个数少、描述信息能力弱,常用的文本分类方法对于短文本分类效果不理想。同时传统的文本分类方法在处理大规模文本分类时会出现向量维数很高的情况,造成算法效率低,而且一般用于长文本分类的特征选择方法都是基于数理统计的,忽略了文本中词项之间的语义关系。针对以上问题本文提出基于卡方特征选择和LDA主题模型的中文短文本分类方法,方法使用LDA主题模型的训练结果对传统特征选择方法进行特征扩展,以达到将数理信息和语义信息融入分类算法的目的。对比试验表明,这种方法提高了中文短文本分类效果。 关键词:短文本分类 特征选择 主题模型 中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)13-3182-04 The Short Text Classification Method Based on CHI Feature Selection and LDA Topic Model ZHENG Cheng, XIONG Da-kang, LIU Qian-qia

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 公文范文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。