毕业论文:互联网旅游信息采集与分析系统的开发.pdf

上传人:文初 文档编号:1046830 上传时间:2018-11-26 格式:PDF 页数:51 大小:1.62MB
下载 相关 举报
毕业论文:互联网旅游信息采集与分析系统的开发.pdf_第1页
第1页 / 共51页
毕业论文:互联网旅游信息采集与分析系统的开发.pdf_第2页
第2页 / 共51页
毕业论文:互联网旅游信息采集与分析系统的开发.pdf_第3页
第3页 / 共51页
毕业论文:互联网旅游信息采集与分析系统的开发.pdf_第4页
第4页 / 共51页
毕业论文:互联网旅游信息采集与分析系统的开发.pdf_第5页
第5页 / 共51页
点击查看更多>>
资源描述

1、 北 京化工大 学 毕 业 论 文 题目: 互联网旅游信息采集与分析系统的开发 以百度旅游为例 专 业 信息管理与信息系统 学 号 学 生 姓 名 指 导 教 师 北京化工大学毕业设计(论文) I 诚信申明 本人申明: 所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除 文中已经注明引用内容和致谢的地方外, 本论文不包括其他个人或集体已经发表的研究成果, 也不包含其他已申请学位或其他用途使用过的成果。 对本论文完成所做贡献的人及资料均已 在论文中做了明确的说明并表示了谢意。 如有不实之处,则按照学校有关规定接受处罚。 本人签名: 年 月 日 北京化工大学毕业设计(论文

2、) II 毕业设计(论文)任务书 设计(论文)题目: 互联网旅游信息采集与分析系统的开发 以百度旅游为例 1设计(论文)的主要任务及目标本文任务在于通过对互联网旅游信息采集与分析系统的设计与功能实现, 通 过分析在线评论数据,匹配个人需求,智能推荐旅游目的地、通过情感分析、统 计、数据可视化实现景点形象分析等;本文目标在于运用网络爬虫技术、分词技 术与所学知识,以百度旅游为例实现对旅游信息的收集与统计分析功能。2 设计(论文)的基本要求和内容毕业论文应结构合理、观点正确、文字流畅,内容包括课题的研究背景及意 义,相关计算机技术,系统需求分析、设计方案以及总体框架,系统的关键程序 及实现界面。采

3、用 CS架构进行系统设计,基于 Eclipse开发平台、MySQL 数据 库,开发一个客户端系统,具有采集景点信息、景点评论、分析景点印象、热门 话题、分类、情感分析、景点形象分析、景点推荐等主要功能。3 主要参考文献1 徐蓉艳. 旅游大数据与挖掘及其在旅游行业的应用方向J. 中国市 场,2014,51:204-205+208.2 刘丽敏, 刘祥艳. 旅游在线评论有用性的影响因素研究J. 财经界( 学术 版),2015,18:349-351.3覃国蓉,叶志成,庄槟豪,蔡哲聪. 旅游网络评论情感分析方法研究及系统实现J. 深圳信息 职业技术学院学报,2015,03:57-62.4刘帅,蒋贵凰.

4、数据挖掘的现状及发展趋势研究分析J. 现代商业,2015,33:30-31.5黄玲. 数据挖掘在旅游电子商务中的应用研究J. 中国管理信息4 进度安排设计(论文)各阶段名称 起 止 日 期 1 收集资料、查阅文献,完成文献综述和英文翻译工作 201631-2016326 2 进一步查阅整理资料,确定写作大纲,明确设计重点和难点 2016 3 27-2016 4 10 3 完成系统需求分析与系统设计,做好中期检查的相关工作 2016 4 11-2016 4 30 4 完善设计内容,初步完成主要模块的程序编制工作 201651-2016520 5 完成论文终稿、准备论文答辩相关事宜 2016521

5、-201662 北京化工大学毕业设计(论文) III 互联网旅游信息采集与分析系统的开发 以百度旅游为例 摘要:随着中国旅游业规模不断扩大、高速发展,从而使得旅游数据信息量呈爆 发式的增长,目前旅游数据已经构成了一个丰富海量的巨大信息空间。对于普通 游客,由于很多潜在的旅游者的时间和精力都非常有限,他们往往花费了大量的 时间成本去选择旅游目的地,然而旅游目的地的真实情况难免与网上有出入,这 种情况不但会严重影响旅游者的满意度和出游计划, 还大大增加了旅游者的出行 成本; 对于景区管理者, 由于旅游产业给地方政府和企业产生了庞大的经济价值, 因此及时有效地监控景区服务管理的水平对提高景区形象有重

6、大意义。 本文对以 百度旅游网站为例的在线评论数据进行数据挖掘, 为游客提供景点推荐和相关查 询的功能,为景区管理者或旅游管理部门提供景区形象分析和相关查询的功能。 关键字:旅游;在线评论;目的地推荐;景点形象 The development of tourism information acquisition and analysis system for the Internet Abstract: Along with the high-speed development of Chinese tourism industry, the industry scale expands un

7、ceasingly, in tourism data information of explosive growth, tourism has formed a huge mass data information space.For ordinary tourists, since most potential tourists travel time is very limited, and the cost of time-consuming screening destination, to guarantee the truth and destination this situat

8、ion seriously affect the tourists travel plans and satisfaction, increase the tourists travel cost; For the scenic area management, due to the local governments at all levels to see enormous economic benefits brought by the tourism industry, timely monitoring of the scenic area management service le

9、vel has important significance to improve the image of the scenic spot.Therefore, in this paper, the travel site to BaiDu online reviews data in data mining, for example, to provide tourist attractions and related query function, for scenic area managers with image analysis and related query functio

10、ns. Keywords: Travel; Online-remark; Destination recommendation; Scenic spot image 北京化工大学毕业设计(论文) IV 目 录 前言 . (1) 第 1 章 绪论 . (2) 第 1.1节 课题背景及意义 . (2) 第 1.2节 国内外研究现状 . (3) 第 1.3节 论文内容组织结构 . (5) 第 2 章 旅游数据挖掘以及系统关键技术的介绍 . (7) 第 2.1节 数据挖掘的概念 . (7) 第 2.2节 系统关键技术的介绍 . (8) 第 3 章 系 统分析 . (13) 第 3.1节 需求分析 .

11、(13) 第 3.2节 可行性分析 . (13) 第 3.3节 用例模型 . (14) 第 4 章 系 统设计 . (19) 第 4.1节 功能模块设计 . (19) 第 4.2节 类的详细设计 . (20) 第 4.3节 主要顺序图 . (22) 第 4.4节 数据库设计 . (26) 第 5 章 系 统实现 . (30) 第 5.1节 主要功能介绍 . (30) 第 5.2节 系统各主要文件功能一览 . (42) 第六章 总结 与 展望 . (43) 第 6.1节 总结 . (43) 第 6.2节 展望 . (43) 参考文献 . (45) 致谢 . (46) 北京化工大学毕业设计(论文)

12、 1 前言 目的地推荐作为旅游大数据在旅游行业的应用之一, 一般用于电子商务网站 和旅行社对潜在游客进行精准营销提高满意度的目的。 而在旅游需求日渐旺盛的 今天,越来越多的年轻人会选择自己规划行程,他们往往通过互联网去搜寻相关 的目的地信息,而面对海量的信息,通过自己的选择和判断会花费大量的时间。 因此本文希望针对想要出去游玩,但并不是很了解自己的需求、想快速了解某个 景点的信息的人提供景点推荐功能、评论分类查询、景点信息查询、景点排行等 功能。 旅游大数据的挖掘对景区管理者和旅游管理部门有重要意义, 可以保证旅游 信息的实时性和有效性,能够及时地发现和掌握游客的需求变化和喜好的改变。 本文希

13、望通过对评论数据的挖掘,分析出景点的形象、差评意见、热门话题等对 景区管理者和旅游管理部门改善服务、 分析游客需求、 制定决策等有帮助的信息。 对加强旅游管理部门内部的信息管理、建设智慧旅游平台等方面,提供一个参考 方向。 北京化工大学毕业设计(论文) 2 第1 章 绪论 第1.1节 课题背景及意义 2015 年中国旅游行业高速持续发展,根据国家旅游局统计,2015 年上半年 国内游客数量达到 20.24亿人次,同期增长了 9.9%;国内旅游消费额度达到 1.65 万亿元人民币,同期增长 14.5%。旅游景区接待游客数量同期增长 8.7%,旅游 收入同期增长 12.4%。随着国内旅游良好的发展

14、势头,游客满意度问题同样受到 很大的重视。 在逐渐规范的市场秩序和具有创新力的企业服务以及较好的总体旅 游消费环境等共同作用下, 2015年第二季度全国游客满意度稳定在 “基本满意” 水平为 75.45,全国旅游投诉满意度指数为 72.6,可以看出游客对旅游市场治理 方面的评价有显著提升。 旅游作为一种典型的体验型产品,具有无实体性、综合性、消费与生产的同 一性等特点,这就意味着信息对旅游业的重要性。伴随网络技术的不断发展、网 民思维的逐渐成熟、旅游数据信息爆炸性的增加。在线评论作为一种口碑数据, 对旅行者和景区管理者都有一定的参考价值。 旅游作为一种放松身心提高人们幸福感的重要生活方式, 选

15、择合适的旅游目 的地非常重要。旅游者在选择旅游目的地时,越来越多的人会通过浏览旅游网站 的攻略、游记和景点评论来了解景点信息,但其中会掺杂着一些无用的信息。在 旅行者时间精力有限、需求不明确的情况下,为旅行者提供目的地推荐,和景点 信息分析,帮助用户快速了解景点很有必要。 旅游产业为地方政府带来了巨大的经济利益, 便纷纷增大了对旅游景区的资 源开发力度和重视程度,不断加大对旅游景区的经济投入和支持力度,有的地方 甚至将发展旅游业作为当地的第一要义。我国景区正在不断增加、规模也逐渐扩 大,景区的服务水平以及管理质量也有了很大的进步。各地景区通过以优雅的环 境、人性化的管理方式、高质量的服务水平来

16、满足游客对于景区的需求。除了传 统的问卷调查、和旅游投诉的方式,还可以利用容易且方便获取的在线评论数据 获得游客对景点的需求和意见,通过对评论数据的分析,可以帮助景区管理者对 决策制定和改进起到辅助的作用。 通过对海量的在线评论采集和分析,对旅游者和景区管理者提供决策帮助, 是本系统的重要目的的意义。 北京化工大学毕业设计(论文) 3 第1.2节 国内外研究现状 1.2.1 推荐系统介绍 因特网的出现和发展使得信息的传递更加快捷迅速, 满足了信息时代的使用 者对信息的巨大需求,但随着互联网的快速发展,几何级的信息增长给用户带来 了大量垃圾信息而无法获得真实有用的信息的困扰, 对信息的利用率反而

17、降低了, 这就是信息超载(Informationoverload)的问题。 推荐系统是依据使用者的需求、 兴趣等, 给用户定制化的推荐感兴趣的产品、 资讯等的信息推荐系统, 可以有效的解决信息超载问题 。 与搜索引擎不同的是, 推荐系统通过个性化的计算能够发现用户的兴趣偏好和关注点, 从而指引用户发 现自身的需求。目前有四大类主流的推荐算法:基于内容的推荐算法、协同过滤 推荐算法、混合的推荐算法、基于知识的推荐算法。 1995 年 3 月,在美国人工智能协会上卡内基.梅隆大学的 Robert Armstrong 等人提出了 Web -Watcher 个性化导航系统,Stanford Unive

18、rsity 的 Marko Balabanovic 等人提出了 LIRA 个性化推荐系统;从上个世纪 90 年代中期出现推 荐系统的概念到今天,推荐系统发展迅猛。电子商务的蓬勃发展为推荐系统带来 了重要的的契机和发展平台。而今,推荐系统已被普遍应用在各类电子商务,例 如:新闻、书籍、文章、电影、音乐、网页推荐等。 1.2.2 基于内容的推荐算法 基于内容的推荐 ( content- based recommendation)也称为基于内容的信息过 滤推荐,它不需要用户对推荐对象进行评价,而是把推荐对象的内容特征抽取出 来, 然后从用户以往选择对象的内容特征去学习用户的偏好兴趣,最后与用户 偏好

19、兴趣匹配度较高的对象将被推荐给用户。 基于内容过滤的推荐是建立在项目 自身属性信息基础上的一种推荐算法,其主要依赖的是项目自身的属性息,而不 去考虑用户反馈的项目评价和偏好。 基于内容过滤的推荐有着很多优点, 如无项目的冷启动问题和矩阵稀疏的问 题, 对于偏好小众的用户依然可以进行推荐, 在推荐时容易例举出推荐的理由等, 但是会出现难以区分商品信息的品质和风格, 不能为用户推荐新出现的感兴趣的 商品,自我学习能力较差的问题。 北京化工大学毕业设计(论文) 4 描述基于内容的推荐方法主要有两种类型: 启发式的方法和基于模型的方法。 启发式的方法就是用户凭借经验来定义相关的计算公式, 然后再根据公

20、式的计算 结果和实际的结果进行验证,然后再不断修改公式以达到最终目的。而对于模型 的方法就是根据以往的数据作为数据集, 然后根据这个数据集来学习出一个模型。 一般的推荐系统中运用到的启发式的方法就是使用 tf-idf的方法来计算,跟还有 tf-idf的方法计算出这个文档中出现权重比较高的关键字作为描述用户特征,并 使用这些关键字作为描述用户特征的向量; 然后再根据被推荐项中的权重高的关 键字来作为推荐项的属性特征,然后再将这个两个向量最相近的(与用户特征的 向量计算得分最高)的项推荐给用户。在计算用户特征向量和被推荐项的特征向 量的相似性时,一般使用的是 cosine方法,计算两个向量之间夹角

21、的 cosine值。 Mooney等在 Book recommending using test categorization with extracted information(1998) 1 中将贝叶斯分类算法引入到内容推荐中。Mostafa和 Lam 在 Automatic classification using supervised learning in a medical document filtering application (2000) 2 中运用神经网络研究内容算法; Zenebe和 Norcio 在 similarity measures and aggregat

22、ion methods using fuzzy sets for content 3 中将模糊数学方法 应用于基于内容的产品推荐(2009), Cui CS,Wu Q Z在 Research on electric commerce recommender systems based on vargue set(2009)中 4 将 Vague 集方法 应用于内容推荐算法的产品表示中,以上研究,均立足于产品的特征,通过消除 产品特征的不确定性,以获得产品相似性的描述,由此可见,在基于内容的推荐 系统中, 产品相似性的描述与计算机表示是决定内容推荐算法质量的一个重要因 素。 卢小丽等(2006)

23、 5 ,运用内容分析的方法对中外旅游文献中有影响力的 40 个生态旅游概念进行分析,总结出最能代表生态旅游概念内涵的 6 个标准。刘 毅(2006) 6 ,通过建立内容分析法的分析框架对网络舆论信息进行分析,并对 信息传播效果和变化趋势进行预测。 彭钰(2011) 7 ,利用内容分析法对中国 戏曲网站向用户传播的内容进行类型分析。张慧(2012) 19 ,利用内容分析法 对泉州、厦门地区的 30 家高星级饭店服务质量进行了实证比较分析,并提出可 行性建议。冯明等(2012) 20 ,对内容分析法定义和分类进行总结,并阐述了 该方法在企业管理实践中的应用现状。 初步探讨了该方法的应用前景和在未来

24、应 用研究中应采取的措施。范向丽等(2010) 21 ,将内容分析法引入到旅游安全 研究领域,以 2001-2007年中国女性游客安全事故报道为研究对象,对其趋势、北京化工大学毕业设计(论文) 5 特征、规律等进行了分析。崔春生等(2015) 22 通过可拓学中基元的表示方法, 实现了推荐系统中定性描述和定量评的有机结合; 运用距离的思想探讨了待推荐 产品与理想产品之间的相似性,进而获得了各个产品的推荐度。相对于已有的内 容推荐算法,该方法不仅解决了推荐领域中产品特征难以表示的问题 ,同时也 解决了推荐过程的不确定干扰。 经过 20 多年的发展 ,推荐技术取得了长足进步,然而现有的推荐算法仍面

25、 临诸多困难与挑战 ,其中数据稀疏、过拟合、可扩展性和多媒体信息特征提取是 主要问题 。现有的技术和方法都不能从根本上解决这些问题。 本文将采用内容推荐算法, 在对一些特征比较明显的项目上使用内容过滤算 法来获得对用户的推荐结果效果比较显著且适合文本处理。 第1.3节 论文内容组织结构 1.3.1本文主要工作 截止 2015 年,中国已成为全世界最大的国内旅游市场。伴随中国旅游市场 的快速发展,以携程网、去哪儿网、途牛、马蜂窝等为代表的主要提供旅游信息 搜索、推荐、旅游评论等服务的中国在线旅游行业媒体类网站,将会体现其巨大 的市场价值。本文以百度旅游网的国内景点为数据来源,使用爬虫技术对评论和

26、 景点信息进行采集。百度旅游网截至 2016 年 5 月 23 日,共有 62857 个目的地, 709735篇游记攻略, 1872734条点评,数据量足够庞大符合分析要求;数据处理 部分对评论数据进行采集与分析,主要技术有爬虫、关键词提取、词频统计、情 感分析、分类。首先将评论数据分为美食、购物、价格、交通、服务、娱乐、其 他共七类,然后使用情感分析技术将每条评论归为好评、中性或差评,计算每个 景点的各个主题的好评率、 差评率, 和总体好评率、 总体差评率, 得到景点评分。 通过景点评分可对景点做形象分析,还可以结合用户界面的需求选择,将计算出 景点的分数由高到低推荐给用户。以景点为单位,提

27、取评论关键词,得到景点主 题即景点印象, 根据评论时间统计名词、 动词、 形容词的词频得到景点热门话题。 最后将分析的数据以可视化的形式呈现给用户并实现相关功能。 北京化工大学毕业设计(论文) 6 1.3.2本文的组织结构 第一章是绪论部分, 主要描述课题背景及意义、 推荐系统的国内外研究现状, 并介绍了论文内容组织结构。 第二章是本文的理论部分,首先介绍了本文的技术环境-数据挖掘的定义和 旅游数据挖掘的技术,并介绍了本系统中使用到的技术爬虫技术、文本挖掘、关 键词算法、情感分析以及本系统具体的实现技术。 第三章是系统分析部分,进行需求分析和可行性分析。 第四章是系统设计部分,通过系统功能模块

28、图、UML 的详细设计以及数据 库设计展开说明本系统的设计思路。 第五章是系统实施部分,主要为系统界面展示。 第六章是本文的总结与展望, 对本文所做的工作和研究内容进行了简要的总 结,最后展望了本文开发的系统中的不足以及需要改进之处。 北京化工大学毕业设计(论文) 7 第 2 章 旅游数据挖掘以及系统关键技术的介绍 第2.1节 数据挖掘的概念 2.1.1 数据挖掘的定义 数据挖掘是一个从有杂音的具有一定复杂程度的、 大量不连续的未处理数据 中抽出其中隐藏地具有潜在利用价值的资源(规则、约束等)过程。用于数据挖 掘的数据形式种类繁多。例如文本、数据、图片、音频等。数据挖掘的方法可以 是数学或非数

29、学, 抽象或非抽象的。 经过数据挖掘所得出的资源可以被用在研究、 控制、决策等方面。总的来说,数据挖掘是一个覆盖了数理统计、机器自动化、 智能人工等多种领域成果的复杂的交叉学科。随着数据信息化的不断发展,数据 挖掘把人们对数据的应用从简单的查询,提高到了机器学习,并靠其强有力的的分 析数据能力和丰富的内容为各行各业的决策提供了非常有效的帮助。 7站在商业角度来看, 数据挖掘是一种比较新颖的商业化的信息数据分析技术, 对于旅游业来讲,一般对巨量的旅游信息数据进行提取、转化、分解和模块化会 借助于数据挖掘技术对旅游行业的信息加以处理, 从中抽取出对旅游行业有决策 性帮助的信息知识,最终实现数据自动

30、化处理的旅游商业模式。 总体来看, 数据挖掘往往覆盖了多个领域学科的知识技术是一种很复杂的综 合性的信息数据处理技术,不仅包括了数理统计知识、神经网络、数据库系统等 知识,同时也包括数据可视化和信息检索、信号处理功能,从而实现对数据的综 合性处理和探勘。而对于旅游数据的挖掘,可以从多个视角利用并实现数据信息 决策和控制之间的管理,进而为数据信息查询提供不可或缺的决策支持作用。 2.1.2 旅游数据挖掘的技术 数据挖掘技术包括信息序列模式的分析、关联规则分析、数据分类和聚类、 异常检测等。而挖掘分析旅游数据,主要是使用关联规则分析,实现对旅游资讯 的实时搜索,并利用那些出现频率最高的模式,通过对

31、其进行分类或者聚类,实 现对旅游数据的相似性分析,并对相似的信息加以存放,进而为相关的决策者的 决策提供必要性的支持。 8北京化工大学毕业设计(论文) 8 第2.2节 系统关键技术的介绍 2.2.1 网络爬虫 网络爬虫(web crawler)是搜索引擎的主要构成部分,也叫做 Web 信息采 集器或者网络蜘蛛(web spider),是一个能够自发的下载指定网页的计算机程 序代码或自动化脚本。 它从指定的一个网站界面开始,解析网页的内容,找到 网页中含有的其它 URL,然后通过这些 URL 地址再去寻找下一个网页,这样不 停往复循环下去,直到把这个网站所有的页面都采集完成为止。要是把互联网看

32、做一个有向图, 那么网络爬虫就可以用这个方法把互联网上所有的网页都采集下 来。 本文所采集的对象百度旅游网的景点评论和景点信息的 URL都有一定 规律,按规律将 URL解析出来得到需要的内容即可。评论的 URL规律为 “http:/ rk-container“, jingdian 需替换为所采集景点的拼音全拼, page 需替换为要采集的 评论的页数,利用 JSOUP 解析对应景点的 HTML代码,提取标签可以得到相关 景点评论。 景点名称和景点信息同时爬取放入到景点信息表中, 二者为 AJAX动态传回 页面,需用抓包工具解析 JSON文件的 URL规律为 “http:/ sonid=5&su

33、rl=“+diming+“&pn=1&rn=“+jdnum+“,diming需替换为要采集城市的 拼音全拼,jdnum 需替换为所要显示的该城市的景点数量,利用 HtmlUnit解析 Json数据,寻找所要提取信息的格式规律,使用正则表达式提取景点的名称和信 息,如利用以下三个正则表达式可以提取出某个城市的景点名称: “(“surl“:)(.*?)(,“uid“:)“、“(“surl“:“)(.*?)(“,“sname“:)“、 “(“scene_list“:)(.*?)(,“sname“:)“。 2.2.2 在线评论信息挖掘 在线评论挖掘是利用信息提取、文本分类、情感分析等技术对在线评论中的

34、 产品特征挖掘出潜在有意义的信息, 并从实践视角挖掘出可以应用于商业领域的北京化工大学毕业设计(论文) 9 信息,即在线评论信息怎样对企业和消费者行为产生影响。在线评论信息挖掘框 架的中心是在线评论数据挖掘,包含信息数据提取、文本分类、情感分析。三者 的关系如图 2. 1所示:信息抽取是进行情感分析之前的步骤,然后信息抽取和情 感分析又是文本分类的之前的步骤。 信息抽取是从产品的显示属性分析中提取关 键词挖掘出主题特征(品质、外观、价格等) ,情感分析是利用语句分析对产品 的隐式属性判断情感倾向挖掘出情感倾向(正面、中性、负面) ,文本分类挖掘 出文本类别(主题、情感分类) 9 。 在线评论进

35、行信息数据挖掘之前,通常先要使用分词、词性标注、停用词过 滤等方法对文本预处理。 在词性标注时先利用朴素贝叶斯和基于规则的分类方法 将没有意义的词语去除,然后按照词性语料库标注 10 。然后在分词(使用条件 随机场算法(CRFS)的分词技术比使用隐马尔科夫算法(HMM)实现分词取得 的效果要好)的步骤之后,再完成信息提取、情感分析以及文本分类的工作。 图 21 在线评论信息数据挖掘研究框架 北京化工大学毕业设计(论文) 10 2.2.3 关键词算法介绍 TextRank 算法 一篇文章的关键词通常是指那些能够区别于其他文章并且代表该文章主要 内容的词汇。关键词提取是文本处理的一个基本步骤,被广

36、泛应用于文章分类、 摘要、检索、构建专有词典以及互联网广告等领域。 11TextRank 是一种由谷歌的 PageRank 网页排序算法优化改进下的,针对文章 中的句子设计的用于文本排序的权重算法,它的作用是自动提取文章摘要。它采 用了投票原理,即让每个词语给它的身边的邻居(术语称窗口)投赞成票,票的 权重值主要取决于自身获得的票数。TextRank 在 PageRank 的公式的基础之上, 引进了边权值的概念,边权值用来代表两个句子之间的相似的程度。 公式 21 TextRank 交叉信息熵算法 关键词可以能够表达一篇文章的主题, 就是因为这个词左右两边可以搭配的 词汇能很丰富,信息熵可以理

37、解成某种特定信息的出现概率,于是我们可以得出 代表一个词信息熵的算法:w代表这个词汇,p代表这个词左右两边出现的不同 词的数量。 比如现在某篇文章中出现了:AWB ,AWB ,CWD,那么 W 的左侧信息 熵为: , 2/3表示在 3次出现了 W 的词之中 W的左侧出现 了两次 A 词组,因为 C 只出现了一次,所以是 1/3。W 右侧的信息熵也是一样 的。如果是 AWB,AWBCWB,那么 W 右侧的信息熵就是 0,因为是 -1log(1)。对 每个词都计算其左右信息熵,如果某个词计算出来的左右信息熵的值都很大,那 这个词是关键词的可能性就很大。 本文对故宫和颐和园这两个景点的评论分别使用两

38、种算法提取 15 个关键字, 得到以下结果。 故宫:西六宫#珍妃井#珍宝馆#太和殿#故宫博物院#网上订票#讲解器#钟表馆#北京化工大学毕业设计(论文) 11 天安门广场#景山公园#红墙#乾清宫#宁寿宫#直接刷身份证#宁寿宫区#(交叉信 息熵)故宫, 北京, 地方, 里面, 建筑, 历史, 时间, 宫殿, 看到, 皇帝, 讲解, 门 票, 感觉, 紫禁城, 参观(TextRank) 颐和园: 苏州街#排云殿#谐趣园#四大部洲#北宫门#联票#皇家园林#西堤#慈禧太 后#购买联票#文昌院#仁寿殿#讲解器#东宫门#新建宫门#(交叉信息熵) 颐和园, 昆明湖, 园林, 皇家, 北京, 地方, 景点, 里

39、面, 长廊, 佛香阁, 万寿山, 门票, 时间, 感觉, 苏州(TextRank) 分析发现,交叉信息熵提取出来的关键词能更好的描述景点的主题,因此本 文采取交叉信息熵的算法来提取关键字。 2.2.4 情感分析技术 Hatzivassiloglou 等人 12 运用语言学上连接词对形容词有语义倾向上的互相 约束, 可以通过已经知道词汇的极性推测出跟它由连接词所联系的其他词汇的语 义倾向,提出了一种有监督学习的算法。Turney 提出了一种被很多人采用的语 义分析算法即无监督的学习算法-点互信息法(Pointwise Mutual Information ), 比如计算“like”词与基准词“good”的互信息,然后两个 PMI(两个词之间 的语义相关性)相减获得“like”词的平均情感倾向性指标,PMI 越大表示 like 的正向情感倾向就越明显,从而判别它的情感倾向 1314 ,求 PMI 值时通常用基 于 Snippet 15 和基于搜索引擎两种方法。 Kanayama H,Kaji 等学者通过构造情感词典, 人工提取出评论里的情感词汇,并对每个情感词按其表示的情感倾向标记,添加 到专业的情感词典, 最后使用

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。