1、 硕士学位论文 论文题目: ( 英 文 ) : 基于词向量的新闻事件追踪 和相关性推断研究 N e w s Event Tracking and Correlation Inference Based on Word Vector 作者: 指导教师: XX 年 X 月 X 日 中国人民大学 硕 士 学 位 论 文 (中文题目) 基于词向量的新闻事件追踪和相关性推断研究 News Event Tracking and Correlation Inference (英文题目) Based on Word Vector 作 者 学 号 : 作 者 姓 名 : 所 在 学 院 : 信息学院 专 业 名
2、 称 : 计算机应用技术 导 师 姓 名 : 论文主题词: 词向量 ;话题追踪 ;事件侦测 ; ( 3-5 个) 关系推断 论文提交日期: 摘 要 随着互联网的发展,人们每天接收到的新闻越来越多,如何从这些新闻里实时地侦测热点事件,以及如何进行事件的追踪成为研究的重点。 热点事件是指在某个时间,发生在某地的受人们关注的事,而事件的追踪指的是把一段时间内,一系列相关事件聚合成话题,也被称为话题追踪。目前国内外有许多关于热点事件侦测和话题追踪的研究工作,工业界也已经出现类似的商业系统,例如百度新闻,必应资讯等,但大多数工作忽略了话题的粒度问题。另一方面,人们往往比较关注新闻中的命名实体,例如人名,
3、地名等,如何根据新闻的实时性特点,给出命名实体间的相关关系也是一个研究难点。本文的目标是基于新闻数据,实时的进行话题追踪以及相关性推断研究,包括话题中的相关事件关系展现,以及新闻中命名 实体间的关系推断等。 本文提出了基于关键词的话题追踪和多层级话题展示算法,在话题追踪的开始,就确定了此话题的聚类粒度,并且在不同的话题间形成了层级关系,可以向用户自由的推送相关层级的话题,通过对比试验得知,精确度好于传统的话题追踪模型。另一方面,本文针对新闻领域的相关性推断问题,首次提出了基于词向量的动态训练模型以及基于时间维度的一词多向量模型,利用训练后的词向量进行事件间关系展现以及命名实体间的关系推断等。
4、在数据抓取的基础上,本文实现了原型系统。此系统可以实时的抓取和抽取新闻数据,高效地进行热点事件侦测,在热点事件的基础上,实现了基于关键词的话题追踪和相关性推断算法,最后通过可视化方式把算法的最终效果展示给了用户。 关键词 :词向量;话题追踪;事件侦测;关系推断 1 Abstract With the development of the Internet, people receive more and more news every day, how to detect hot events and topic tracking from these news in real-time be
5、come focus in research. Hot event is that at a certain time, occurred in somewhere in the limelight, and event tracking refers to cluster some related events which occurred in same period of time, also called topic tracking. Currently there are many studies on hot event detection and topic tracking,
6、 and the industry also has a similar business systems such as Baidu news, Bing news etc., but most work is neglected topic granularity. On the other hand, people tend to focus more on the named entities in news, such as names, places, how to show relations between named entities based on real-time n
7、ews is also a difficult task. So, goal of this paper is based on real-time news, do topic tracking and correlation inference, including the relationship between events which in one topic, as well as infer relationships between named entities in news. In this paper, we present a keyword-based topic t
8、racking and multi-level display of topics algorithm, at the beginning of topic tracking, we will decide the granularity of the topic, and show flexible multi-level topics to users. On the other hand, we present dynamic word vector training model and time-based multi vector model to solve correlation
9、 inference problems, used trained word vectors to show relationships between events and the relationships between named entities, etc. We realized the prototype system based on crawled data. This system can crawl and extract data in real time and detect hot events efficiently. On the basis of hot ev
10、ents, we achieved keyword-based topic tracking and correlation inference algorithms and show the results to users via visual way. Keywords: Word Vector, Topic Tracking, Event Detection, Correlation Inference 2 目录 第 1 章 引言 . 1 1.1 选题背景和意义 . 1 1.2 课题的难点及挑战 . 3 1.3 本文的主要内容 . 4 1.4 本文的主要贡献 . 5 1.5 本文的组织
11、结构 . 5 第 2 章 相关工作介绍 . 7 2.1 新闻结构化信息抽取 . 7 2.2 热点事件侦测 . 8 2.3 话题追踪 . 9 2.4 词向量 . 11 2.5 相关性推断 . 12 2.6 事件侦测和话题追踪系统实现 . 14 第 3 章 新闻数据抓取及元数据抽取 . 15 3.1 新闻数据增量型抓取 . 15 3.1.1 爬虫数据源确定 . 15 3.1.2 新闻 URL 判断 . 16 3.1.3 新闻 URL 去重 . 17 3.2 新闻元数据抽取 . 18 3.2.1 基于规则的新闻网页元数据抽取 . 19 3.2.2 基于 DOM Tree 的新闻正文自动抽取算法 .
12、21 3.3 本章小结 . 23 第 4 章 热点事件侦测 . 24 4.1 热点事件的定义 . 24 4.2 新闻数据去重 . 24 4.3 新闻数据再聚类 . 28 4.4 热点事件相关信息生成 . 28 4.5 本章小结 . 29 第 5 章 词向量动态训练及时间维度的多向量模型 . 31 5.1 词向量模型 . 31 5.2 词向量动态训练模型 . 34 5.2.1 哈夫曼树的建立 . 34 5.2.2 哈夫曼树动态创建 . 35 5.3 基于时间维度的一词多向量模型 . 35 5.4 实验结果 . 37 5.5 本章小结 . 37 第 6 章 基于关键词的多层级话题追踪及相关性推断
13、. 38 6.1 话题的定义及当前遇到的问题 . 38 6.2 基于关键字的倒排索引结构 . 39 6.3 基于关键词的话题追踪 . 40 6.3.1 在线数据话题追踪框架 . 40 6.3.2 事件相似度计算 . 41 6.4 多层级话题展示 . 43 6.5 相关性推断 . 43 6.5.1 话题中的事件相关性推断 . 43 6.5.2 命名实体间的相关性推断 . 44 6.6 实验结果 . 45 6.7 本章小结 . 46 第 7 章 系统设计与实现 . 47 7.1 系统总体框架图 . 47 7.2 新闻 URL 爬虫模块 . 48 7.3 HTML 下载模块及新闻数据抽取模块 . 4
14、9 7.4 事件侦测模块 . 50 7.5 话题追踪模块 . 50 7.6 词向量训练模块及相关性推断模块 . 50 7.7 本章小结 . 51 第 8 章 总结与展望 . 52 8.1 研究工作总结 . 52 8.2 未来工作展望 .53 参考文献 .54 攻读硕士期间开发的演示系统 .58 攻读硕士期间发表的论文 .59 参与项目情况 .60 致谢 .61 图表目录 图 2-1 新闻网页文字密度图 . 8 图 2-2 基于 EM 模型的事件关系图 .13 图 4-1 重复新闻展示 .25 图 4-2 SimHash 计算过程图 .26 图 4-3 SimHash 分段图 .27 图 4-4
15、 SimHash 集合分段图 .27 图 5-1 词向量示意图 .32 图 5-2 CBOW 网络结构图 .32 图 5-3 词向量训练过程图 .33 图 5-4 Skip-Gram 模型 .34 图 5-5 哈夫曼树 .35 图 5-6 一词多向量模型 .36 图 6-1 事件与相关关键词倒排索引示例 .40 图 6-2 在线数据话题追踪框架图 .41 图 6-3 多层级话题展示 .44 图 6-4 相关事件演化关系图 .44 图 7-1 系统总体框架图 .47 表 3-1 主流新闻网站列表 . 15 表 3-2 新闻 URL 样例 . 16 表 3-3 新闻网站网页编码表 . 19 表 3
16、-4 新闻发布时间格式表 . 20 表 3-5 新闻正文标签表 . 20 表 5-1 哈夫曼树创建算法耗时对比表 . 37 表 6-1 VSM 模型话题追踪精确度表 . 46 表 6-2 基于关键词的多层级话题追踪算法精确度表 . 46 表 7-1 各网站新闻 URL 抓取数量表 . 49 基于词向量的新闻事件追踪和相关性推断研究 第 1 章 引言 本章首先介绍了基于词向量的新闻事件追踪和相关性推断研究的选题背景和意义,接下来介绍了本课题目前所面临的难点和挑战,以及本文针对这些难点与挑战提出的主要算法,最后总结了全文的组织结构。 1.1 选题背景和意义 随着互联网的发展,人们所能接收到的包含新
17、闻,微博等在内的信息量骤增,怎么在同等时间内向用户推送热点事件和话题成为研究的热点。热点事件是指人们在现实生活中关注的重要信息,指某个时间发生在某个地点的引起人 们关注的事情,比如, 2014 年 3 月 8 日发生的 “ 马航失联 ” 就是一个热点事件。在互联网日益发达的今天,人们通过各种方式去接受新的信息,包括传统 PC,手机客户端等在内的新闻浏览方式既增加了接受新信息的多样性,但也决定了在信息浏览的局限性,所以针对新闻媒体的热点事件侦测显得尤为重要。 多数互联网公司都 在以不同的形式进行热点事件侦测的研究,例如百度,谷歌,搜狗,微软等,其中百度新闻系统最具有代表性,此系统实时抓取主流媒体
18、的新闻数据,进行相似新闻侦测,并且以此为基础加入手工编辑的话题信息等,形成热点事件的展示页面,目前,百度新闻系统的访问量已经非常可观,由此可见基于新闻的热点事件侦测已成为当前互联网时代不可或缺的技术。 相对于热点事件,话题可以看作一系列相关事件的集合,比如,持续一个多月的与 “ 马航失联 ” 相关的事件可以形成一个以 “ 马航失联 ” 为主的话题;历年发生在世界各地的海啸事件可以形成海啸话题等。热点事件 有一个具体的 时间点,并且从理论角度应该包含新闻的 5 要素( Who, Where, When, What, Why)【 1】,而话题则不包含确定的时间点,是发生在一段时间内的相关事件组成的
19、。话题内各个事件的联系也比较灵活,例如北京的不同地区下雨事件,可形成一个北京下雨的话题,而全国各地的下雨事件,可形成中国下雨话题,从这个层面来看,话题的形成可按照层级来聚类,不同的层级代表了不同的话题 1 基于词向量的新闻事件追踪和相关性推断研究 粒度。 经过多年的研究,热点事件的侦测技术趋于稳定和实用,反而如何进行事件的追踪和关系展现问题,以及如何把现有的话题数据更好的展示给用户成为研究的难点。话题追踪指的是,当我们获取一个事件后,能在前后一段时间内对相关事件进行聚类,形成一个话题,例如近期发生的乌克兰公投的相关事件。从现实角度出发,当人们点击一条热点事件后,必然会想要了解此事件的前后发展情
20、况,此时需要精确的对相关事件进行追踪;虽然国内外有不少关于话题追踪的研究工作,但大多数的工作没有对话题的聚类粒度做统一的定义,不同的话题可能具有不同的粒度,例如 “ 北京下 雨 ” 话题和 “ 下雨 ” 话题,这两个话题实际上具有不同的粒度,后者的层级更高。另一方面,一系列的相关事件内也包含不同的分支主题,例如李天一的相关事件,包含主线主题,年龄造假主题,父亲被气病等分支主题,结合时间,我们可以采用时间轴的方式对各个主题进行发展关系展现。如上提出的问题是目前大多数互联网公司和国内外研究机构研究较少的方向,也是将来基于新闻的话题追踪研究必须要突破的科研点之一。 如今基于神经网络的深度学习技术在图
21、像和视频领域取得了惊人的成绩,针对自然语言处理和文本挖掘领域,不少科研机构和公司都开始了相关研究, 例如 2013 年下半年谷歌公司发表的一项研究【 2】表明,基于深度学习的词向量模型,在词语语义评测方面取得了目前最好的精度。此处的词向量,区别于 传统的词语向量模型( Vector Space Model),指的是把训练样本中的词汇转换成统一空间中固定长度的向量,这些词向量可以应用到很多领域,例如机器翻译,文本标注,命名实体识别等,均取得了较好的成绩。 相对于传统的 VSM 模型,基于深度学习的词向量模型,在训练过程中利用了文本中词语的上下文信息,能表达一部分语义信息,例如给出关系对 ,再给出另外一个词语 , 向量模型能给出 ,这个词汇距离上述三个词语的向量加权和最近【 3】。 目前对于热点事件侦测,追踪,以及关系展现的相关研究本质上均基于 VSM 的方式,这种方式丢失了词语顺序和上下文之间的关系信息,这对于新闻,却是非常关键的信息,所以本课题结合基于神经网络的词向量模型和传统的 VSM 模型进行热点事件的追踪和关系展现的研究,利用词语上下文的信 息来提 2