基于语义关联和信息增益的TFIDF 改进算法研究.ppt-资源下载-文客久久网

基于语义关联和信息增益的TFIDF 改进算法研究.ppt

1、基于词频反文档频率（ TFIDF）的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联，如果脱离语义，提取出的特征不能很好地刻画文档的内容。为准确提取特征，在信息熵与信息增益的基础上，加入词语的语义关联因素，实现融合语义信息的特征提取，进而提出语义和信息增益相结合的 TFIDF改进算法，该算法弥补了统计方法丢失语义信息的弊端。文本分类通常有文本的预处理、文本的向量空间模型表示、文本特征提取和分类器的训练四个步骤。在研究文本分类的过程中，特征提取是最关键的环节之一，可以起到降低向量维数、简化计算、去除噪声等作用。故而，特征提取的好坏将直接影响文本分类

2、的准确率。特征提取的基本思想是构造一个评估函数，对特征集中的每个特征词进行权重计算，然后对所有的特征词按照其权重值的大小进行排序，选择预定数目的最佳特征作为最终的特征子集。在文本分类中常使用的特征选择方法包括文档频率（ document frequency）、互信息（mutual information）、信息增益（ information gain）、统计（ CHI）、期望交叉熵（ cross entropy）、文本证据权（ the weight of evidence for text）、优势率（ odds ratio）和词频反文档频率等。对于传

3、统的 TFIDF 特征提取算法，目前已有文献对其的不足进行分析及改进，效果比较显著的是通过引入信息熵对其进行改进，解决了词语在类别间的分布不均造成的问题。比如字面不同的词语但可以表示同一个含义，这样的一组词的语义特征是一样的，不能忽视它们共同出现对词频的影响。若忽视了语义，就无法准确表达文档的内容，同时也会影响计算特征词权值的精确度。之前的大多工作是计算独立的字或词的权重值，以选出特征词，很少涉及词汇语义部分的研究，容易忽视多义词和同义词现象。本文针对这一问题，先对词语进行语义信息的分析，然后将有语义关联的归为一组，进而分析信息熵，改进信息增益的公式，提出一种新的基于语义关联和信息增益的TFI

4、DF特征选择算法。实验结果表明，改进后的特征选择算法，在文本分类的查准率和召回率两方面均有不同程度的提高。在文本分类领域中，最常用的是 Salton在 1975年提出的向量空间模型（ VSM）。 VSM 将文本 di看做向量空间中的一个 n 维向量（ t1， w(t1)， t2， w(t2)， t3，w(t3)，， tn， w(tn)），则 t1， t2， t3，， tn是该文本的特征词， w(ti)， i 1,2,3,n 是该文本对应的第 i 个特征词的权重值。对文本文档进行分类主要依据文档的内容，而特征词的权重值便是刻画词语表达文档内容的重要指标。权重值的计算按

5、其值类型通常分为以下两种：）布尔型，即将所有训练文档的词语作为全集，当一个词语 ti 出现在文档中时，其权值设为，否则设为；）实数型，将文档的词语通过权重计算公式求出其权重值。显然，传统的 TFIDF特征选择方法中，某个词语的权重值与该词语的频率成正比，与文档频率成反比。但这个方法有着明显的不足，即忽视了文档在每个类中的分布情况。对于文档频率，一方面只考虑了包含某个词语文档数绝对量的多少，而没有考虑这些文档在类别中的分布；另一方面，假如说包含某词条的文档数比较少，但如果这个词语均匀分布于各个类别中，那么对分类的贡献是微乎其微的，不能很好地

6、区分类别。相应地，它的权重值应该比较小，但是按照传统TFIDF 算法得出的权重值却比较大。上述两个明显的缺点主要是因为TFIDF 将文档集合作为整体考虑，没有考虑词语在类别间的分布情况。针对这个问题，文献对传统 TFIDF 方法进行了改进，引入了信息熵与信息增益的概念，用以解决词语在类别间的分布不均。但有些文献在处理方法上未考虑同一个文档中词与词之间的语义关联，只是将每个词语孤立地进行权重值的计算，这样的处理将词语割裂开，不利于文本内容表达的完整性，对文本分类有一定的影响。本文在基于语义关联的前提下计算信息熵，对权重值的计算方法进行改进。熵是德国

7、物理学家克劳修斯于 1850 年提出的，表示一种能量在空间中分布的均匀程度，能量分布得越均匀，熵就越大。 1948年， Shannon 把熵应用于信息处理，提出了信息熵的概念。信息熵在随机事件发生之前，是结果不确定性的量度；在随机事件发生之后，它是人们从该事件中所得到信息的量度（信息量）。设随机事件 X 在获得信息 y 之前结果的不确定性为H（ X），得到信息 y 之后为 H（ X y），那么包含在消息 y 中的关于事件 X 的信息量为 :G（ X， y） H（ X） H（ X y）（）条件熵 E（ X y） H（ X y）是观测信息 y 后信息空间 X 的不确定

8、程度。信息增益是信息熵的差，表示为 : （ X， y） H（ X） H（ X y）（）由公式得出的不确定程度减少量就是信息增益，即表示词语对分类的影响。倘若简单地将信息增益作为一个乘数因子加入 TFIDF中，修改 TFIDF算法中的权重公式为 tf*idf*IG，并不能解决传统 TFIDF的不足，所以在 tf*idf*IG公式的基础上，将信息增益公式进行变形并引入到文档集合的类别间，将文档类别看做信息源，由训练数据集合的类别信息熵和文档类别中词语的条件熵之间信息量的增益关系共同决定该词语在文本分类中所提供的信息量，即建立起信息熵和词语权重值之间的关系。则权重值的计算公式为 :对式 (3)研究得出，可以解决传统 TFIDF中存在的不足，即当词语 t 在类别中分布不均匀时，在某个类别中大量出现而其他类别中分布较少，理论上这个词带有很大的类别信息，由改进后的公式也恰恰算出它的权重值较高。另一种情况是某个词语虽然在整个文档集合中数量很少，但均匀分布于各个类别间，则其对区分类别的影响比较小，理论上它的权重值相应地比较低，由式(3)算出的权重也确实比较低。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？