ImageVerifierCode 换一换
格式:DOC , 页数:4 ,大小:103.50KB ,
资源ID:1868756      下载积分:8 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1868756.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(公司话题提取及其趋势分析.doc)为本站会员(gs****r)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

公司话题提取及其趋势分析.doc

1、1公司话题提取及其趋势分析摘要:随着信息技术的发展,人们由一个信息匮乏的时代进入到了信息爆炸的时代,大量信息通过媒体、互联网等各种途径冲击着人们的大脑。面对庞大的数据,人们很难找到他们想要的信息。为解决这种问题,研究者们开始着手在大量数据中挖掘有用的信息、对庞大的信息建立索引、在文档集中提取话题等方向。本文从专利文档角度出发,对公司的专利文档进行分析,提取其潜在的热点话题,并将其集成到专利检索系统 Patent Miner 中。在挖掘公司潜在信息,提高用户的搜索效率方面具有重要意义。 关键词:话题提取 话题模型 PLSA 专利分类 Google Chart Tools 1 概述 信息超载这个词

2、最早出现在 1970 年 AlvinTomer 的未来震撼一书中并被人们所熟知1。进入信息时代,信息技术以前所未有的速度迅猛发展着,信息超载的现象越来越清晰地呈现在人们的眼前。随着网络技术的飞速发展,人们接受的信息正以各种形式纷至沓来,信息量的日益增多使得用户很难轻松准确地找到他们想要的信息。为解决这种问题,研究者们开始着手在大量数据中挖掘有用的信息、对庞大的信息建立索引、在文档集中提取主题等方向。 话题提取旨在挖掘文档集合中的重要信息,在学术信息检索领域具有重要的作用。研究者们很早就注意到了挖掘文本信息这个重要领域,2并且做了很多研究。1990 年 Deerwester 等人提出 LSA 模

3、型,认为文档和单词之间还有一层潜在语义空间2,1998 年 Papadimitriou 等人则在明确地指出文档和单词之间存在 topic 层3,后来的研究者们便开始从topic 层面进行话题提取并衍生出一系列的模型以及应用。 本文从公司的专利文档入手,从 topic 层面试图提取公司的热点话题并分析其发展趋势,如图 1 所示。本文所实现的话题提取有两种思路,第一种主要基于 PLSA 算法,另外一种则是根据专利文档的特点,利用专利所属的类别名称来表示公司话题。由于篇幅有限,第二种方法就不进行介绍了。在公司话题趋势分析方面,本文利用 Google Chart Tools 图表将每个公司的话题演化趋

4、势以折线图的方式展现给用户,方便用户浏览查看,提高用户查找效率。 图 1 公司话题提取示例 2 研究目的及方法 随着计算机和互联网的迅猛发展,信息迎来了大爆炸时代。大量的数据的出现给人们的使用和选择都带来了困扰。话题的提取则可以有效地缓解这种困扰,用户不需要阅读大量的文献就可以发掘这些关键的信息,对于提高用户的搜索效率和工作效率以及提高网站的可用性方面都具有很重要的意义。 本研究课题是科研项目专利检索系统 Patent Miner 项目的一个子课题,在 195,263 家公司的海量专利数据的基础上对公司话题进行提取分析。实验采用 Myeclipse 开发平台,主要运用 Java 语言进行开发,

5、并需3要掌握一定的 Html,CSS 和 JavaScript 知识。 2.1 形式化的问题定义 给定一个公司 A,让 DA 表示这个公司 A 所有文档的集合,即DA=d,d,d。根据 Bag-of-Words 模型假设文档集合DA 可以生成相应的字典 W=w,w,w,那么就可以把数据集表示成一个 NM 的共生矩阵,其中 N=(N(d,w) )i,j,n(d,w)表示 A 公司中字典中的第 j 个单词在第 i 个文档中出现的次数。 我们可以将公司话题提取的问题描述如下:对于一个给定的公司A,M 个该公司下文档的集合 DA 和对应的 NM 的共生矩阵,我们的目标是: 找到几个 topic,这些

6、topic 可以用字典中的词表示 根据 PLSA 模型,在文档与字典之间存在一层隐含语义空间 topic,文档服从在 topic 上的多项分布 ,1+2+k=1, (kN) ;话题服从单词上的多项分布 ,1+2+N=1。只要根据 PLSA 模型计算出 topic 在 word 上的分布,再对结果进行排序取概率最大的几个 word即可。根据上面的定义,给出问题的最终定义: 问题 2.1:基于 PLSA 模型的公司话题提取对于一个给定的公司,话题提取的目标是对全部文档集进行遍历,生成字典 W 和矩阵 n(d,w) ,利用 PLSA 模型得出若干话题,并得出每个话题在 word 上的分布P(wi|z

7、j)imN,jmK,并对其排序。 2.2 PLSA 算法 4Probabilistic Latent Semantic Analysis(PLSA) 是概率统计模型中经典的模型之一,是 Latent semantic analysis(LSA)的改进版。 LSA 是在传统的单词与文档的映射中间加入了潜在语义空间,通过奇异值分解(Singular Value Decomposition)的方式来求解这个潜在语义空间。由于基于 SVD,迭代计算次数非常多,在处理海量文本数据时,文档和词的维度将急剧增加,使 SVD 的计算复杂度呈三次方增长。鉴于此,Hofmann 于 1999 年提出一种基于概率的潜在语义分析 PLSA 模型。PLSA 继承了“潜在语义”的概念,通过“统一的潜在语义空间”来关联词与文档;通过引入概率统计的思想,避免了 SVD 的复杂计算。由于统计技术的引用,PLSA 可以解决模型拟合,模型结合,模型控制等问题,可以更有效的处理多义词并明确区分不同的含义和不同类型的词语用法。PLSA 的贝叶斯网络结构如图 2 所示。像其他所有的统计潜变量模型一样 PLSA 模型引入了条件独立性假设,即在潜在变量 z 下文档 d 和词 w是相互独立的。其中 wW=w1,wN,dD=d1,dD,zZ=z1,zK,zN。 图 2 PLSA 结构图

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。