公司话题提取及其趋势分析.doc

上传人:gs****r 文档编号:1868756 上传时间:2019-03-18 格式:DOC 页数:4 大小:103.50KB
下载 相关 举报
公司话题提取及其趋势分析.doc_第1页
第1页 / 共4页
公司话题提取及其趋势分析.doc_第2页
第2页 / 共4页
公司话题提取及其趋势分析.doc_第3页
第3页 / 共4页
公司话题提取及其趋势分析.doc_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、1公司话题提取及其趋势分析摘要:随着信息技术的发展,人们由一个信息匮乏的时代进入到了信息爆炸的时代,大量信息通过媒体、互联网等各种途径冲击着人们的大脑。面对庞大的数据,人们很难找到他们想要的信息。为解决这种问题,研究者们开始着手在大量数据中挖掘有用的信息、对庞大的信息建立索引、在文档集中提取话题等方向。本文从专利文档角度出发,对公司的专利文档进行分析,提取其潜在的热点话题,并将其集成到专利检索系统 Patent Miner 中。在挖掘公司潜在信息,提高用户的搜索效率方面具有重要意义。 关键词:话题提取 话题模型 PLSA 专利分类 Google Chart Tools 1 概述 信息超载这个词

2、最早出现在 1970 年 AlvinTomer 的未来震撼一书中并被人们所熟知1。进入信息时代,信息技术以前所未有的速度迅猛发展着,信息超载的现象越来越清晰地呈现在人们的眼前。随着网络技术的飞速发展,人们接受的信息正以各种形式纷至沓来,信息量的日益增多使得用户很难轻松准确地找到他们想要的信息。为解决这种问题,研究者们开始着手在大量数据中挖掘有用的信息、对庞大的信息建立索引、在文档集中提取主题等方向。 话题提取旨在挖掘文档集合中的重要信息,在学术信息检索领域具有重要的作用。研究者们很早就注意到了挖掘文本信息这个重要领域,2并且做了很多研究。1990 年 Deerwester 等人提出 LSA 模

3、型,认为文档和单词之间还有一层潜在语义空间2,1998 年 Papadimitriou 等人则在明确地指出文档和单词之间存在 topic 层3,后来的研究者们便开始从topic 层面进行话题提取并衍生出一系列的模型以及应用。 本文从公司的专利文档入手,从 topic 层面试图提取公司的热点话题并分析其发展趋势,如图 1 所示。本文所实现的话题提取有两种思路,第一种主要基于 PLSA 算法,另外一种则是根据专利文档的特点,利用专利所属的类别名称来表示公司话题。由于篇幅有限,第二种方法就不进行介绍了。在公司话题趋势分析方面,本文利用 Google Chart Tools 图表将每个公司的话题演化趋

4、势以折线图的方式展现给用户,方便用户浏览查看,提高用户查找效率。 图 1 公司话题提取示例 2 研究目的及方法 随着计算机和互联网的迅猛发展,信息迎来了大爆炸时代。大量的数据的出现给人们的使用和选择都带来了困扰。话题的提取则可以有效地缓解这种困扰,用户不需要阅读大量的文献就可以发掘这些关键的信息,对于提高用户的搜索效率和工作效率以及提高网站的可用性方面都具有很重要的意义。 本研究课题是科研项目专利检索系统 Patent Miner 项目的一个子课题,在 195,263 家公司的海量专利数据的基础上对公司话题进行提取分析。实验采用 Myeclipse 开发平台,主要运用 Java 语言进行开发,

5、并需3要掌握一定的 Html,CSS 和 JavaScript 知识。 2.1 形式化的问题定义 给定一个公司 A,让 DA 表示这个公司 A 所有文档的集合,即DA=d,d,d。根据 Bag-of-Words 模型假设文档集合DA 可以生成相应的字典 W=w,w,w,那么就可以把数据集表示成一个 NM 的共生矩阵,其中 N=(N(d,w) )i,j,n(d,w)表示 A 公司中字典中的第 j 个单词在第 i 个文档中出现的次数。 我们可以将公司话题提取的问题描述如下:对于一个给定的公司A,M 个该公司下文档的集合 DA 和对应的 NM 的共生矩阵,我们的目标是: 找到几个 topic,这些

6、topic 可以用字典中的词表示 根据 PLSA 模型,在文档与字典之间存在一层隐含语义空间 topic,文档服从在 topic 上的多项分布 ,1+2+k=1, (kN) ;话题服从单词上的多项分布 ,1+2+N=1。只要根据 PLSA 模型计算出 topic 在 word 上的分布,再对结果进行排序取概率最大的几个 word即可。根据上面的定义,给出问题的最终定义: 问题 2.1:基于 PLSA 模型的公司话题提取对于一个给定的公司,话题提取的目标是对全部文档集进行遍历,生成字典 W 和矩阵 n(d,w) ,利用 PLSA 模型得出若干话题,并得出每个话题在 word 上的分布P(wi|z

7、j)imN,jmK,并对其排序。 2.2 PLSA 算法 4Probabilistic Latent Semantic Analysis(PLSA) 是概率统计模型中经典的模型之一,是 Latent semantic analysis(LSA)的改进版。 LSA 是在传统的单词与文档的映射中间加入了潜在语义空间,通过奇异值分解(Singular Value Decomposition)的方式来求解这个潜在语义空间。由于基于 SVD,迭代计算次数非常多,在处理海量文本数据时,文档和词的维度将急剧增加,使 SVD 的计算复杂度呈三次方增长。鉴于此,Hofmann 于 1999 年提出一种基于概率的潜在语义分析 PLSA 模型。PLSA 继承了“潜在语义”的概念,通过“统一的潜在语义空间”来关联词与文档;通过引入概率统计的思想,避免了 SVD 的复杂计算。由于统计技术的引用,PLSA 可以解决模型拟合,模型结合,模型控制等问题,可以更有效的处理多义词并明确区分不同的含义和不同类型的词语用法。PLSA 的贝叶斯网络结构如图 2 所示。像其他所有的统计潜变量模型一样 PLSA 模型引入了条件独立性假设,即在潜在变量 z 下文档 d 和词 w是相互独立的。其中 wW=w1,wN,dD=d1,dD,zZ=z1,zK,zN。 图 2 PLSA 结构图

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 学科论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。