题目:文本挖掘方法研究商务智能技术课程报告目录摘要1一、概述3二、国内外研究现状与动态3三、主要研究内容51、文本挖掘流程52、文本特征表示13、文本相似度度量44、改进的文本挖掘方法85、文本挖掘方法评估10四、总结与建议11五、主要参考文献12商务智能技术课程报告摘要如今互联网世界大数据日益发酵,各种数据一起奔涌而出,其中半结构化和非结构化数据所占比例明显增加,这是由于在信息传递的载体中文本发挥着越来越重要的作用。与之相对应,文本处理得到了众多学者和商业应用的关注。通过文本挖掘可以让用户在浩如烟海的文档中找到隐藏的信息,完成文本分类和聚类等各项功能,通过机器学习等自动化方法简化处理流程提高准确率和精确率。本文首先介绍了向量空间模型的文本表示和基于统计学及信息量的特征选择方法,然后介绍了基于本体的文本语义相似度度量方法,主要有基于信息量的概念相似度计算方法和基于本体结构的概念相似度计算方法,紧接着针对文本分类和聚类两个领域的机器学习方法进行分析,对其存在的问题提出了改进意见。最后介绍了这两类挖掘方法的