ImageVerifierCode 换一换
格式:PPT , 页数:24 ,大小:3.81MB ,
资源ID:824157      下载积分:20 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-824157.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于语义关联和信息增益的TFIDF 改进算法研究.ppt)为本站会员(创****公)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

基于语义关联和信息增益的TFIDF 改进算法研究.ppt

1、基于词频反文档频率( TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的 语义关联因素 ,实现融合语义信息的特征提取,进而提出 语义和信息增益相结合 的 TFIDF改进算法,该算法弥补了统计方法 丢失语义信息 的弊端。文本 分类通常有文本的预处理、文本的 向量 空间模型表示、文本特征提取和分类器的训练四个步骤。 在研究 文本分类的过程中,特征提取是最关键的环节之一, 可以起 到降低向量维数、简化计算、去除噪声等作用。故而, 特征提取 的好坏将直接影响文本分类

2、的准确率。特征提取的基本 思想 是构造一个评估函数,对特征集中的每个特征词进行权重计算 ,然后对所有的特征词按照其权重值的大小进行排序, 选择预定 数目的最佳特征作为最终的特征子集。在文本分类 中常使用 的特征选择方法包括文档频率 ( document frequency) 、 互信息(mutual information)、 信息增益 ( information gain) 、 统计( CHI) 、期望交叉熵 ( cross entropy) 、文本证据权 ( the weight of evidence for text) 、优势率 ( odds ratio) 和词频反文档频率 等。对于传

3、统的 TFIDF 特征提取算法,目前已有文献对其的不足进行分析及改进,效果比较显著的是通过引入信息熵对其进行改进,解决了词语在类别间的分布不均造成的问题。比如字面不同的词语但可以表示同一个含义,这样的一组词的语义特征是一样的,不能忽视它们共同出现对词频的影响。若忽视了语义,就无法准确表达文档的内容,同时也会影响计算特征词权值的精确度。之前的大多工作是计算独立的字或词的权重值,以选出特征词,很少涉及词汇语义部分的研究,容易忽视多义词和同义词现象。本文针对这一问题,先对词语进行语义信息的分析,然后将有语义关联的归为一组,进而分析信息熵,改进信息增益的公式,提出一种新的基于语义关联和信息增益的TFI

4、DF特征选择算法。实验结果表明,改进后的特征选择算法,在文本分类的查准率和召回率两方面均有不同程度的提高。在文本分类领域中,最常用的是 Salton在 1975年提出的向量空间模型( VSM) 。 VSM 将文本 di看做向量空间中的一个 n 维向量 ( t1, w(t1), t2, w(t2), t3,w(t3), , tn, w(tn)),则 t1, t2, t3, , tn是 该文本的特征词 , w(ti), i 1,2,3,n 是该 文本 对应的第 i 个特征词的权重值 。对 文本文档进行分类主要依据文档的内容,而特征词的 权重 值便是刻画词语表达文档内容的重要指标。权重值的 计算按

5、其值类型通常分为以下 两种 : )布尔型,即将所有训练 文档 的词语作为全集,当一个词语 ti 出现在文档中时,其权值 设为 ,否则设为 ; )实数型,将文档的词语通过权重计算 公式求 出其权重值。显然 ,传统 的 TFIDF特征选择 方法中,某个词语的权重 值与 该词语的频率成正比,与文档频率成反比。但这个方法 有着明显 的不足,即忽视了文档在每个类中的分布情况。对于 文 档 频率 ,一方面只考虑了包含某个词语文档数绝对量的多少, 而没有 考虑这些文档在类别中的分布;另一方面,假如说包含 某词条 的文档数比较少,但如果这个词语均匀分布于各个 类别中 ,那么对分类的贡献是微乎其微的,不能很好地

6、区分类别 。相应 地,它的权重值应该比较小,但是按照 传统TFIDF 算法 得出 的权重值却比较大。上述两个明显的缺点主要是 因为TFIDF 将文档集合作为整体考虑,没有考虑词语在类别间的 分布 情况。针对这个问题, 文献对传统 TFIDF 方法进行 了改进 ,引入了信息熵与信息增益的概念,用以解决词语在 类别间 的分布不均。 但有些文献在 处理方法上未考虑同一个 文档中词 与词之间的语义关联,只是将每个词语孤立地进行权重 值的 计算,这样的处理将词语割裂开,不利于文本内容表达的 完整性 ,对文本分类有一定的影响。本文在基于语义关联的 前提下 计算信息熵,对权重值的计算方法进行改进。熵 是德国

7、物理学家克劳修斯 于 1850 年提出的,表示一种 能量在 空间中分布的均匀程度,能量分布得越均匀,熵就越大 。 1948年, Shannon 把熵应用于信息处理,提出了信息熵的概念。 信息熵在 随机事件发生之前,是结果不确定性的量度;在随机事件发生 之后 ,它是人们从该事件中所得到信息的量度(信息量) 。 设 随机事件 X 在获得信息 y 之前结果的不确定性 为H( X),得到信息 y 之后为 H( X y),那么包含在消息 y 中的关于事件 X 的信息量 为 :G( X, y) H( X) H( X y) ()条件熵 E( X y) H( X y)是观测信息 y 后信息空间 X 的不确定

8、程度。信息增益是信息熵的差,表示 为 : ( X, y) H( X) H( X y) ( )由公式得出的不确定程度减少量就是信息增益,即表示词语 对分类的影响。倘若简单地将信息增益作为一个乘数因子加入 TFIDF中,修改 TFIDF算法中的权重公式为 tf*idf*IG,并不能解决传统 TFIDF的不足,所以在 tf*idf*IG公式的基础上,将信息增益公式进行变形并引入到文档集合的类别间,将文档类别看做信息源,由训练数据集合的类别信息熵和文档类别中词语的条件熵之间信息量的增益关系共同决定该词语在文本分类中所提供的信息量,即建立起信息熵和词语权重值之间的关系。则权重值的计算公式为 :对式 (3)研究 得出,可以解决 传统 TFIDF中 存在的不足 ,即 当词语 t 在类别中分布不均匀时,在某个类别中大量出现 而其他 类别中分布较少,理论上这个词带有很大的类别信息, 由改进 后的公式也恰恰算出它的权重值较高。另一种情况是 某个 词语虽然在整个文档集合中数量很少,但均匀分布于各个 类别 间,则其对区分类别的影响比较小,理论上它的权重值 相应地 比较低,由 式(3)算 出的权重也确实比较低。

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。