毕业论文——基于词向量的新闻事件追踪和相关性推断研究.docx

上传人:滴答 文档编号:1274500 上传时间:2019-01-26 格式:DOCX 页数:68 大小:1.78MB
下载 相关 举报
毕业论文——基于词向量的新闻事件追踪和相关性推断研究.docx_第1页
第1页 / 共68页
毕业论文——基于词向量的新闻事件追踪和相关性推断研究.docx_第2页
第2页 / 共68页
毕业论文——基于词向量的新闻事件追踪和相关性推断研究.docx_第3页
第3页 / 共68页
毕业论文——基于词向量的新闻事件追踪和相关性推断研究.docx_第4页
第4页 / 共68页
毕业论文——基于词向量的新闻事件追踪和相关性推断研究.docx_第5页
第5页 / 共68页
点击查看更多>>
资源描述

1、 硕 士 学 位 论 文 论文题目: 基于词向量的新闻事件追踪 和相关性推断研究 1 摘 要 随着互联网的发展,人们每天接 收到的新闻越来越多,如何从这些新闻里实时地 侦测热点事件,以及如何进行事件的 追踪成为研究的重点。 热点事件是指在某个时间,发生在某地的受人们关注的事,而 事件的追踪指的是把一段时间内,一系列相关事件聚合成话题 , 也被 称为话题追踪。 目前国内外有许多关于热点事件侦测和话题追踪的研究工作,工业界 也 已经出现类似的商业系统,例如百度新闻 ,必应资讯 等,但大多数工作 忽略了话题的粒度问题 。 另一方面,人们 往往比较关注 新闻中的命名实体,例如人名,地名 等,如何根据新

2、闻的实时性特点,给出命名实体间的相关关系也是一个研究难点。 本文的目标是基于新闻数据,实时的进行话题追踪以及相关性推断 研究 ,包括话题中的相关事件关系展现,以及新闻中命名 实体间的关系推断 等 。 本文 提出了基于关键词的话题追踪和多层级话题展示算法,在话题追踪的开始,就确定了此话题的聚类粒度,并且在不同的话题间形成了层级关系,可以向用户自由的推送相关层级的话题 ,通过对比试验得知,精确度好于传统的话题追踪模型。另一方面,本文针对新闻领域的相关性推断问题, 首次 提出了基于词向量的动态训练模型以及 基于时间维度的 一词多向量模型,利用训练后的词向量进行 事件间关系展现以及 命名实体间的关系推

3、断 等 。 在数据抓取的基础上,本文实现了原型系统。此系统可以实时的抓取和抽取新闻数据,高效 地 进行热点事件侦测,在热点事件的基础上,实现了基于关键词的话题追踪和相关性推断算法,最后通过可视化方式把算法的 最终 效果展示给 了 用户。 关键词 : 词向量 ; 话题追踪 ; 事件侦测 ; 关系推断 2 Abstract With the development of the Internet, people receive more and more news every day, how to detect hot events and topic tracking from these n

4、ews in real-time become focus in research. Hot event is that at a certain time, occurred in somewhere in the limelight, and event tracking refers to cluster some related events which occurred in same period of time, also called topic tracking. Currently there are many stud ies on hot event detection

5、 and topic tracking, and the industry also has a similar business systems such as Baidu news, Bing news etc., but most work is neglected topic granularity. On the other hand, people tend to focus more on the named entities in news, such as names, places, how to show relations between named entities

6、based on real-time news is also a difficult task. So, goal of this paper is based on real-time news, do topic tracking and correlation inference, including the relationship between events which in one topic, as well as infer relationships between named entities in news. In this paper, we present a k

7、eyword-based topic tracking and multi-level display of topics algorithm, at the beginning of topic tracking, we will decide the granularity of the topic, and show flexible multi-level topics to users. On the other hand, we present dynamic word vector training model and time-based multi vector model

8、to solve correlation inference problems, used trained word vectors to show relationships between events and the relationships between named entities, etc. We realized the prototype system based on crawled data. This system can crawl and extract data in real time and detect hot events efficiently. On

9、 the basis of hot events, we achieved keyword-based topic tracking and correlation inference algorithms and show the results to users via visual way. Keywords: Word Vector, Topic Tracking, Event Detection, Correlation Inference 目录 第 1 章 引言 .1 1.1 选题背景和意义 . 1 1.2 课题的难点及挑战 . 3 1.3 本文的主要内容 . 4 1.4 本文的主

10、要贡献 . 5 1.5 本文的组织结构 . 5 第 2 章 相关工作介绍 .7 2.1 新闻结构化信息抽取 . 7 2.2 热点事件侦测 . 8 2.3 话题追踪 . 9 2.4 词向量 .11 2.5 相关性推断 . 12 2.6 事件侦测和话题追踪系统实现 . 14 第 3 章 新闻数据抓取及元数据抽取 . 15 3.1 新闻数据增量型抓取 . 15 3.1.1 爬虫数据源确定 . 15 3.1.2 新闻 URL 判断 . 16 3.1.3 新闻 URL 去重 . 17 3.2 新闻元数据抽取 . 18 3.2.1 基于规则的新闻网页元数据抽取 . 19 3.2.2 基于 DOM Tree

11、 的新闻正文自动抽取算法 . 21 3.3 本章小结 . 23 第 4 章 热点事件侦测 . 24 4.1 热点事件的定义 . 24 4.2 新闻数据去重 . 24 4.3 新闻数据再聚类 . 28 4.4 热点事件相关信息生成 . 28 4.5 本章小结 . 29 第 5 章 词向量动态训练及时间维度的多向量模型 . 31 5.1 词向量模型 . 31 5.2 词向量动态训练模型 . 34 5.2.1 哈夫曼树的建立 . 34 5.2.2 哈夫曼树动态创建 . 35 5.3 基于时间维度的一词多向量模型 . 35 5.4 实验结果 . 37 5.5 本章小结 . 37 第 6 章 基于关键词

12、的多层级话题追踪及相关性推断 . 38 6.1 话题的定义及当前遇到的问题 . 38 6.2 基于关键字的倒排索引结构 . 39 6.3 基于关键词的话题追踪 . 40 6.3.1 在线数据话题追踪框架 . 40 6.3.2 事件相似度计算 . 41 6.4 多层级话题展示 . 43 6.5 相关性推断 . 43 6.5.1 话题中的事件相关性推断 . 43 6.5.2 命名实体间的相关性推断 . 44 6.6 实验结果 . 45 6.7 本章小结 . 46 第 7 章 系统设计与实现 . 47 7.1 系统总体框架图 . 47 7.2 新闻 URL 爬虫模块 . 48 7.3 HTML 下载

13、模块及新闻数据抽取模块 . 49 7.4 事件侦测模块 . 50 7.5 话题追踪模块 . 50 7.6 词向量训练模块及相关性推断模块 . 50 7.7 本章小结 . 51 第 8 章 总结与展望 . 52 8.1 研究工作总结 . 52 8.2 未来工作展望 . 53 参考文献 . 54 攻读硕士期间开发的演示系统 . 58 攻读硕士期间发表的论文 . 59 参与项目情况 . 60 致谢 . 61 图表目录 图 2-1 新闻网页文字密度图 . 8 图 2-2 基于 EM 模型的事件关系图 . 13 图 4-1 重复新闻展示 . 25 图 4-2 SimHash 计算过程图 . 26 图 4

14、-3 SimHash 分段图 . 27 图 4-4 SimHash 集合分段图 . 27 图 5-1 词向量示意图 . 32 图 5-2 CBOW 网络结构图 . 32 图 5-3 词向量训练过程图 . 33 图 5-4 Skip-Gram 模型 . 34 图 5-5 哈夫曼树 . 35 图 5-6 一词多向量模型 . 36 图 6-1 事件与相关关键词倒排索引示例 . 40 图 6-2 在线数据话题追踪框架图 . 41 图 6-3 多层级话题展示 . 44 图 6-4 相关事件演化关系图 . 44 图 7-1 系统总体框架图 . 47 表 3-1 主流新闻网站列表 . 15 表 3-2 新闻

15、 URL 样例 . 16 表 3-3 新闻网站网页编码表 . 19 表 3-4 新闻发布时间格式表 . 20 表 3-5 新闻正文标签表 . 20 表 5-1 哈夫曼树创建算法 耗时对比表 . 37 表 6-1 VSM 模型话题追踪精确度表 . 46 表 6-2 基于关键词的多层级话题追踪算法精确度表 . 46 表 7-1 各网站新闻 URL 抓取数量表 . 49 基于词向量的新闻事件追踪和相关性推断研究 1 第 1章 引言 本章首先介绍 了 基于词向量的新闻事件追踪和相关性推断研究 的 选题 背景和意义,接下来介绍 了 本课题 目前所面临的难点和 挑战 ,以及 本文 针对 这些 难点与 挑战

16、 提出的主要算法 ,最后 总结了全文 的 组织结构 。 1.1 选题 背景 和 意义 随着互联网的发展,人们所能接 收到 的包含 新闻,微博等在内的信息量骤增, 怎么在同等时间内向用户推送热点 事件 和话题 成为研究的热点。 热点事件是 指 人们 在 现实生活中关注的重要信息, 指 某 个 时间 发生在某个地点的引起人们关注的事情,比如, 2014 年 3 月 8 日发生的 “ 马航失联 ” 就是一个热点事件。在互联网日益发达的今天 ,人们通过各种方式去接受新的信息,包括传统 PC,手机客户端等在内的新闻浏览方式 既增加了接受新信息的多样性,但也 决定了在 信息浏览的局限性,所以针对新闻媒体的

17、热点事件侦测显得尤为重要。 多数互联网公司都在 以不同的形式 进行热点事件侦测的研究,例如百度,谷歌,搜狗, 微软 等 , 其中百度新闻系统最具有代表性,此系统实时抓取主流媒体的新闻数据,进行相似新闻侦测, 并且 以此为基础加入手工编辑的话题信息 等,形成热点事件的展示页面, 目前,百度新闻系统的访问量已经非常可观,由此可见基于新闻的热点事件侦测已成为当前互联网时代不可或缺的技术。 相对于热点事件,话题可以看作一系列相关事件的集合,比如,持续一个多月的 与 “ 马航失联 ” 相关 的 事件可以形成一个以 “ 马航失联 ” 为主的话题;历年发生在世界各地的海啸事件可以形成海啸话题等。 热点事件有

18、一个具体的时间 点,并且从理论角度应该包含新闻的 5 要素( Who, Where, When, What,Why)【 1】 , 而话题 则 不包含确定的时间点,是发生在一段时间内的相关事件组成的 。 话题内 各个 事件的联系也比较灵活,例如北京的不同地区下雨事件 , 可形成一个北京 下雨 的话题,而全国各地的下雨事件,可形成 中国 下雨话题,从这个层面来看,话题的形成可按照层级来聚类 ,不同 的层级代表了不同的话题基于词向量的新闻事件追踪和相关性推断研究 2 粒度 。 经过多年的研究,热点事件的侦测技术 趋于稳定和实用,反而如何进行事件的追踪和关系展现问题 , 以及如何 把 现有的话题数据更

19、好的展示给用户成为研究的 难点 。 话题 追踪指的是,当我们获取一个事件后,能在前后一段时间内对 相关事件进行聚类 ,形成一个话题 ,例如近期发生 的 乌克兰 公投 的相关 事件。从现实角度出发,当人们点击一条热点事件后,必然会想要 了解此事件的前后发展情况,此时需要精确的对相关事件进行 追踪; 虽然 国内外有不少关于话题追踪的研究工作,但大多数的工作 没有对话题的聚类粒度做 统一 的定义,不同的话题可能具有不同的粒度,例如 “北京 下雨 ”话题 和 “下雨”话题 ,这两个话题 实际上 具有不同的粒度,后者的层级更高。 另一方面,一系列的相关事件内也包含不同的分支主题,例如李天一 的相关 事件

20、, 包含主线主题,年龄造假主题,父亲被 气 病 等分支主题,结 合时间,我们可以采用时间轴的方式对各个主题进行发展关系展现。如上提出 的问题 是目前大多数互联 网公司和国内外研究机构研究较少的方向,也是将来基于新闻的话题追踪研究 必须要突破的科研点之一。 如今基于神经网络的深度学习技术在图像和视频领域取得了惊人的成绩,针对自然语言处理和文本挖掘领域, 不少 科研机构和公司都开始 了相关 研究,例如 2013 年下半年谷歌公司发表的一项研究 【 2】 表明 ,基于深度学习的词向量模型, 在词语语义评测 方面 取得 了目前最好的精度。此处的词向量,区别于传统 的词语向量模型 ( Vector Sp

21、ace Model) ,指的是把训练样本中的词汇转换成统一空间中固定长度的向量,这些词向量可以应用到很多领域,例如机器翻译 ,文本标注, 命名实体 识别 等,均取得了较好的成绩。 相对于 传统的 VSM 模型 , 基于深度学习的词向量模型, 在 训练过程中 利用了文本中词语的上下文信息 ,能表达一部分语义信息 ,例如给出关系对 ,再给出另外一个词语 , 向量模型能给出 , 这个词汇 距离 上述三个词语的向量 加权和 最近 【 3】 。 目前对于热点事件侦测,追踪,以及关系展现的 相关研究 本质上均 基于VSM 的方式,这种方式丢失了词语顺序和上下文之间的关系 信息 ,这 对于新闻,却是非常关键

22、的信息,所以本课题 结合基于神经网络的词向量模型和传统的VSM 模型进行热点事件的追踪和关系展现的研究,利用 词语上下文的信息 来 提基于词向量的新闻事件追踪和相关性推断研究 3 升相关事件追踪和关系展现的精度。 新闻 领域的相关性推断,主要涉及到如下几个方面,首先是话题中事件之间的相关性推断, 同一 话题包含不同的分支,分支之间也 由 一些特定的事件相关联,另一方面,随着时间的 推移 , 命名实体 之间的关系和含义也 随之 变化,例如在 2014 年 3 月之前, 和马来西亚关联 比较多的 词语 是旅游, 华人 等 ,当下关联紧密的 确是恐怖袭击,消失, 祈福 , 搜救 等 词语 , 所以命

23、名实体 随时间的相关性 推断 也是一个 比较重要 的 研究领域。 总结起来 ,随着 互联网的发展 ,热点事件的侦测 , 话题追踪 以及 相关性推断 已成为解决 信息量骤增的重要 方式之一 。为此 , 本课题针对主流媒体的新闻数据进行事件侦测和话题追踪 , 并 利用 词向量给出了 话题中 相关命名实体间的关系推断, 为以后的 话题追踪 和关系推断研究提供 了 一定的参考价值。 1.2 课题的难点及挑战 关于 本课题的研究内容,主要有以下一些难点与挑战: 1. 如何定义 话题层级。如 选题 背景中介绍,不同的事件可以形成层级不同的话题, 例如李亚鹏 和王菲可以有离婚相关的话题,也可以上升一个层级,

24、有两人之间 关系 的话题,如何确定 各个 话题的层级以及更好的展示给用户是一个重大的挑战。 2. 实时增量 的进行 词向量 模型的训练 。 现有的基于神经网络的词向量模型均采用离线数据,而新闻的特点是,不断的 会有新数据产生,只有实时的对这些数据进行词向量的训练,才能获取 有 效的结果。 3. 命名实体 在不同时间点的 词向量 训练。在 以前 的词向量研究中, 均不包含 时间的 维度 ,而 新闻数据 中, 发布时间 是一个重要的特征,新闻中 同一 命名实体在不同时间点 应该由 不同的词向量来 代表 其在整个文本空间中的位置。 4. 新闻数据中 的 相关性推断 。 针对于 新闻领域,相关性包含 很 多方面,例如话题中事件之间的相关性, 命名实体 间的相关性 等 , 如何 合理的推测相关性也是本课题的研究难点。 另一方面 , 基于 研究内容,本文实现了相应的原型系统,在系统方面遇到

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。