1、1 硕 士 学 位 论 文 论文题目: 基于词向量的新闻事件追踪 和相关性推断研究 (英文 ): News Event Tracking and Correlation Inference Based on Word Vector 作 者: 指导教师: 年 月 日 2 中国人民大学 硕士学位论文 (中文题目) 基于词向量的新闻事件追踪和相关性推断研究 (英文题目) News Event Tracking and Correlation Inference Based on Word Vector 作者学号: 作者姓名: 所在学院: 信息学院 专业名称: 计算机应用技术 导师姓名: 论文主题词
2、: ( 3-5 个) 词向量 ;话题追踪 ;事件侦测 ; 关系推断 论文提交日期 : 3 摘 要 随着互联网的发展,人们每天接 收到的新闻越来越多,如何从这些新闻里实时地 侦测热点事件,以及如何进行事件的 追踪成为研究的重点。 热点事件是指在某个时间,发生在某地的受人们关注的事,而 事件的追踪指的是把一段时间内,一系列相关事件聚合成话题 , 也被 称为话题追踪。 目前国内外有许多关于热点事件侦测和话题追踪的研究工作,工业界 也 已经出现类似的商业系统,例如百度新闻 ,必应资讯 等,但大多数工作 忽略了话题的粒度问题 。 另一方面,人们 往往比较关注 新闻中的命名实体,例如人名,地名 等,如何根
3、据新闻的实时性特点,给出命名实体间的相关关系也是一个研究难点。 本文的目标是基于新闻数据,实时的进行话题追踪以及相关性推断 研究 ,包括话题中的相关事件关系展现,以及新闻中命名实体间的关系推断 等 。 本文 提出了基于关键词的话题追踪和多层级话题展示算法,在话题追踪的开始,就确定了此话题的聚类粒度,并且在不同的话题间形成了层级关系,可以向用户自由的推送相关层级的话题 ,通过对比试验得知,精确度好于传统的话题追踪模型。另一方面,本文针对新闻领域的相关性推 断问题, 首次 提出了基于词向量的动态训练模型以及 基于时间维度的 一词多向量模型,利用训练后的词向量进行 事件间关系展现以及 命名实体间的关
4、系推断 等 。 在数据抓取的基础上,本文实现了原型系统。此系统可以实时的抓取和抽取新闻数据,高效 地 进行热点事件侦测,在热点事件的基础上,实现了基于关键词的话题追踪和相关性推断算法,最后通过可视化方式把算法的 最终 效果展示给 了 用户。 关键词 : 词向量 ; 话题追踪 ; 事件侦测 ; 关系推断 4 Abstract With the development of the Internet, people receive more and more news every day, how to detect hot events and topic tracking from these
5、 news in real-time become focus in research. Hot event is that at a certain time, occurred in somewhere in the limelight, and event tracking refers to cluster some related events which occurred in same period of time, also called topic tracking. Currently there are many studies on hot event detectio
6、n and topic tracking, and the industry also has a similar business systems such as Baidu news, Bing news etc., but most work is neglected topic granularity. On the other hand, people tend to focus more on the named entities in news, such as names, places, how to show relations between named entities
7、 based on real-time news is also a difficult task. So, goal of this paper is based on real-time news, do topic tracking and correlation inference, including the relationship between events which in one topic, as well as infer relationships between named entities in news. In this paper, we present a
8、keyword-based topic tracking and multi-level display of topics algorithm, at the beginning of topic tracking, we will decide the granularity of the topic, and show flexible multi-level topics to users. On the other hand, we present dynamic word vector training model and time-based multi vector model
9、 to solve correlation inference problems, used trained word vectors to show relationships between events and the relationships between named entities, etc. We realized the prototype system based on crawled data. This system can crawl and extract data in real time and detect hot events efficiently. O
10、n the basis of hot events, we achieved keyword-based topic tracking and correlation inference algorithms and show the results to users via visual way. Keywords: Word Vector, Topic Tracking, Event Detection, Correlation Inference 目录 第 1 章 引言 .1 1.1 选题背景和意义 . 1 1.2 课题的难点及挑战 . 3 1.3 本文的主要内容 . 4 1.4 本文的
11、主要贡献 . 5 1.5 本文的组织结构 . 5 第 2 章 相关工作介绍 .7 2.1 新闻结构化信息抽取 . 7 2.2 热点事件侦测 . 8 2.3 话题追踪 . 9 2.4 词向量 .11 2.5 相关性推断 . 12 2.6 事件侦测和话题追踪系统实现 . 14 第 3 章 新闻数据抓取及元数据抽取 . 15 3.1 新闻数据增量型抓取 . 15 3.1.1 爬虫数据源确定 . 15 3.1.2 新闻 URL 判断 . 16 3.1.3 新闻 URL 去重 . 17 3.2 新闻元数据抽取 . 18 3.2.1 基于规则的新闻网页元数据抽取 . 19 3.2.2 基于 DOM Tre
12、e 的新闻正文自动抽取算法 . 21 3.3 本章小结 . 23 第 4 章 热点事件侦测 . 24 4.1 热点事件的定义 . 24 4.2 新闻数据去重 . 24 4.3 新闻数据再聚类 . 28 4.4 热点事件相关信息生成 . 28 4.5 本章小结 . 29 第 5 章 词向量动态训练及时间维度的多向量模型 . 31 5.1 词向量模型 . 31 5.2 词向量动态训练模型 . 34 5.2.1 哈夫曼树的建立 . 34 5.2.2 哈夫曼树动态创建 . 35 5.3 基于时间维度的一词多向量模型 . 35 5.4 实验结果 . 37 5.5 本章小结 . 37 第 6 章 基于关键
13、词的多层级话题追踪及相关性推断 . 38 6.1 话题的定义及当前遇到的问题 . 38 6.2 基于关键字的倒排索引结构 . 39 6.3 基于关键词的话题追踪 . 40 6.3.1 在线数据话题追踪框架 . 40 6.3.2 事件相似度计算 . 41 6.4 多层级话题展示 . 43 6.5 相关性推断 . 43 6.5.1 话题中的事件相关性推断 . 43 6.5.2 命名实体间的相关性推断 . 44 6.6 实验结果 . 45 6.7 本章小结 . 46 第 7 章 系统设计与实现 . 47 7.1 系统总体框架图 . 47 7.2 新闻 URL 爬虫模块 . 48 7.3 HTML 下
14、载模块及新闻数据抽取模块 . 49 7.4 事件侦测模块 . 50 7.5 话题追踪模块 . 50 7.6 词向量训练模块及相关性推断模块 . 50 7.7 本章小结 . 51 第 8 章 总结与展望 . 52 8.1 研究工作总结 . 52 8.2 未来工作展望 . 53 参考文献 . 54 攻读硕士期间开发的演示系统 . 58 攻读硕士期间发表的论文 . 59 参与项目情况 . 60 致谢 . 61 图表目录 图 2-1 新闻网页文字密度图 . 8 图 2-2 基于 EM 模型的事件关系图 . 13 图 4-1 重复新闻展示 . 25 图 4-2 SimHash 计算过程图 . 26 图
15、4-3 SimHash 分段图 . 27 图 4-4 SimHash 集合分段图 . 27 图 5-1 词向量示意图 . 32 图 5-2 CBOW 网络结构图 . 32 图 5-3 词向量训练过程图 . 33 图 5-4 Skip-Gram 模型 . 34 图 5-5 哈夫曼树 . 35 图 5-6 一词多向量模型 . 36 图 6-1 事件与相关关键词倒排索引示例 . 40 图 6-2 在线数据话题追踪框架图 . 41 图 6-3 多层级话题展示 . 44 图 6-4 相关事件演化关系图 . 44 图 7-1 系统总体框架图 . 47 表 3-1 主流新闻网站列表 . 15 表 3-2 新
16、闻 URL 样例 . 16 表 3-3 新闻网站网页编码表 . 19 表 3-4 新闻发布时间 格式表 . 20 表 3-5 新闻正文标签表 . 20 表 5-1 哈夫曼树创建算法耗时对比表 . 37 表 6-1 VSM 模型话题追踪精确度表 . 46 表 6-2 基于关键词的多层级话题追踪算法精确度表 . 46 表 7-1 各网站新闻 URL 抓取数量表 . 49 基于词向量的新闻事件追踪和相关性推断研究 1 第 1章 引言 本章首先介绍 了 基于词向量的新闻事件追踪和相关性推断研究 的 选题 背景和意义,接下来介绍 了 本课题 目前所面临的难点和 挑战 ,以及 本文 针对 这些 难点与 挑
17、战 提出的主要算法 ,最后 总结了全文 的 组织结构 。 1.1 选题 背景 和 意义 随着互联网的发展,人们所能接 收到 的包含 新闻,微博等在内的信息量骤增, 怎么在同等时间内向用户推送热点 事件 和话题 成为研究的热点。 热点事件是 指 人们 在 现实生活中关注的重要信息, 指 某 个 时间 发生在某个地点的引起人们关注的事情,比如, 2014 年 3 月 8 日发生的 “ 马航失联 ” 就是一个热点事件。在互联网日益发达的今天 ,人们通过各种方式去接受新的信息,包括传统 PC,手机客户端等在内的新闻浏览方式 既增加了接受新信息的多样性,但也 决定了在 信息浏览的局限性,所以针对新闻媒体
18、的热点事件侦测显得尤为重要。 多数互联网公司都在 以不同的形式 进行热点事件侦测的研究,例如百度,谷歌,搜狗, 微软 等 , 其中百度新闻系统最具有代表性,此系统实时抓取主流媒体的新闻 数据,进行相似新闻侦测, 并且 以此为基础加入手工编辑的话题信息 等,形成热点事件的展示页面, 目前,百度新闻系统的访问量已经非常可观,由此可见基于新闻的热点事件侦测已成为当前互联网时代不可或缺的技术。 相对于热点事件,话题可以看作一系列相关事件的集合,比如,持续一个多月的 与 “ 马航失联 ” 相关 的 事件可以形成一个以 “ 马航失联 ” 为主的话题;历年发生在世界各地的海啸事件可以形成海啸话题等。 热点事
19、件有一个具体的时间点,并且从理论角度应该包含新闻的 5 要素( Who, Where, When, What,Why)【 1】 , 而话题 则 不包含确定的时间点,是发生在一段时间内的相关事件组成的 。 话题内 各个 事件的联系也比较灵活,例如北京的不同地区下雨事件 , 可形成一个北京 下雨 的话题,而全国各地的下雨事件,可形成 中国 下雨话题,从这个层面来看,话题的形成可按照层级来聚类 ,不同 的层级代表了不同的话题基于词向量的新闻事件追踪和相关性推断研究 2 粒度 。 经过多年的研究,热点事件的侦测技术 趋于稳定和实用,反而如何进行事件的追踪和关系展现问题 , 以及如何 把 现有的话题数据
20、更好的展示给用户成为研究的 难点 。 话题 追踪指的是,当我们获取一个事件后,能在前后一段时间内对 相关事件进行聚类 ,形成一个话题 ,例如近期发生 的 乌 克兰 公投 的相关 事件。从现实角度出发,当人们点击一条热点事件后,必然会想要 了解此事件的前后发展情况,此时需要精确的对相关事件进行 追踪; 虽然 国内外有不少关于话题追踪的研究工作,但大多数的工作 没有对话题的聚类粒度做 统一 的定义,不同的话题可能具有不同的粒度,例如 “北京 下雨 ”话题 和 “下雨”话题 ,这两个话题 实际上 具有不同的粒度,后者的层级更高。 另一方面,一系列的相关事件内也包含不同的分支主题,例如李天一 的相关
21、事件,包含主线主题,年龄造假主题,父亲被 气 病 等分支主题,结 合时间,我们可以采用时间轴的方式对各个主题进行发展关系展现。如上提出 的问题 是目前大多数互联 网公司和国内外研究机构研究较少的方向,也是将来基于新闻的话题追踪研究 必须要突破的科研点之一。 如今基于神经网络的深度学习技术在图像和视频领域取得了惊人的成绩,针对自然语言处理和文本挖掘领域, 不少 科研机构和公司都开始 了相关 研究,例如 2013 年下半年谷歌公司发表的一项研究 【 2】 表明 ,基于深度学习的词向量模型, 在词语语义评测 方面 取得 了目前最好的精度。此处的词向量,区别于传统的词语向量模型 ( Vector Sp
22、ace Model) ,指的是把训练样本中的词汇转换成统一空间中固定长度的向量,这些词向量可以应用到很多领域,例如机器翻译 ,文本标注, 命名实体 识别 等,均取得了较好的成绩。 相对于 传统的 VSM 模型 , 基于深度学习的词向量模型, 在 训练过程中 利用了文本中词语的上下文信息 ,能表达一部分语义信息 ,例如给出关系对 ,再给出另外一个词语 , 向量模型能给出 , 这个词汇 距离 上述三个词语的向量 加权和 最近 【 3】 。 目前对于热点事件侦测,追踪,以及关系展现的 相关研究 本质上均 基于VSM 的方式,这种方式丢失了词语顺序和上下文之间的关系 信息 ,这 对于新闻,却是非常关键的信息,所以本课题 结合基于神经网络的词向量模型和传统的VSM 模型进行热点事件的追踪和关系展现的研究,利用 词语上下文的信息 来 提