ImageVerifierCode 换一换
格式:DOCX , 页数:2 ,大小:17.82KB ,
资源ID:1366420      下载积分:5 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1366420.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(旅游网络舆情主题分析以澳门为例.docx)为本站会员(h****)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

旅游网络舆情主题分析以澳门为例.docx

1、旅游网络舆情主题分析 :以澳门为例 摘 要 随着旅游产业的逐步发展和 Web 2.0 时代的到来,各种与旅游目的地相关的舆情见诸网络,因此而产生的旅游网络舆情数据量也与日俱增。然而,如何从海量的旅游网络舆情数据中提取有价值的信息,成为了急需解决的问题。本文以澳门地区为例,从互联网上采集与该地区相关的旅游舆情数据,采用文本挖掘的相关技术,建立主题模型并进行分析。这对于旅游企业维护企业形象、制定发展战略;政府进行旅游目的地舆情监测及制定建设规划,具有积极的借鉴意义。 下载 关键词 旅游;网络舆情;澳门 doi: 10.3969/j.i 中图分类号 F592.7 文献标识码 A 文章编号 1673-

2、0194( 2017) 14-0-02 0 引 言 随着社会经济的平稳发展,我国旅游业进入了蓬勃发展阶段。同时,随着信息技术的快速进步,新兴的社会化媒体和传统的大众媒体,更加便捷地通过互联网对旅游热点事件或议题表达情感、意见、观点和态度。旅游网络舆情这一新兴的网络现象,越来越被科研工作者、政府、旅游企业所重视。针对旅游网络舆情数据量大、噪声多的特点,本文采用主题模型的方法对其进行分析研究,不仅可以及时掌握旅游者出游 过程中的利益诉求,还可以了解旅游目的地的热点问题,从而为政府机构和旅游企业提供有价值的决策信息。澳门作为世界上有名的旅游目的地之一,广受广大旅游爱好者尤其是内地游客的喜爱。自 20

3、03 年澳门自由行政策开放以来,赴澳旅游人数大幅增加,其间的旅游问题层出不穷。因此,本文拟采集澳门旅游网络舆情的相关数据,建立主题模型并进行分析,并最终给出结论。 1 主题模型 主题模型是目前文本挖掘领域常用的语言模型,是结合机器学习和自然语言处理等相关方法的一种统计模型。主题模型的基本思想认为文本是由多个主题混合 而成的,而主题是特征词上的一种概率分布,即每篇文本是主题的混合分布,而每一个主题是一组特征词的混合分布。主题模型中最常用的是 LDA( Latent Dirichlet Allocation)。类似于分层贝叶斯, LDA模型包括 3 层(语料层、文档层、词层),如图 1 所示。灰色

4、阴影部分 W 代表可观测随机变量, Z和 代表潜在变量, 和 是在语料层的超参数,矩形框( plate)代表贝叶斯概率求解的迭代过程。最外边的矩形框 M 代表文档,里面的矩形框 N 代表在一个文档中重复地选择潜在主题和词。 其中, 是服从 Dirichlet分布的参数,决定主题之间的差异性, 越小,主题之间差异性越大; 是一个 1K 的随机列向量,表示各主题发生的概率, P( ) Dirichlet( ); zi, j 是由 i 概率分 P( ),产生的离散随机变量,表示文档 i 中词 j 的话题概率; 是一个 K|V| 的矩阵,表示话题 K 的词汇概率分布,且 是 分布的超参数。那么,在 和

5、 已知的情况下,可以得到 、 z、 w 的联合分布: 因此,在 LDA 模型中,只需要知道 和 的参数值便可用于表示文档集。通过贝叶斯概率模型,使用极大似然估计( EM)的方法求 和 的后验分布 。具体的参数估计方法此处不进行赘述。 困惑度( Perplexity)是一种常用来衡量主题模型的指标。通常来说,一个较低的困惑度的模型表示具有更好的泛化性能力。对于 M篇文档,困惑度的定义如下: 2 主题建模与分析:以澳门为例 2.1 数据来源及预处理 针对澳门地区 2015年的旅游网络舆情,本文使用网络爬虫采集每条舆情的标题、内容、发布时间,其中,将发布时间转化为时间戳,作为该舆情的唯一标识符( I

6、D)。接着,对采集的内容进行清洗、分词、去停用词等预处理操作。 值 得注意的是,采集的澳门旅游舆情数据为繁体字,并不能简单地将其转换为简体字进行处理。因为粤语在表达方式上与普通话存在一些差别。因此,为了保证模型的效果,本文没有采取繁转简的操作,而是针对语料特点,反复迭代建立繁体停用词表及字典。 2.2 主题模型训练与结果分析 在预处理的基础上,本文对 2015年澳门旅游网络舆情数据建立 LDA主题模型。为了确定需要的主题的个数,本文先设定主题数分别为 10、 20、 30、40、 50、 70、 90,分别得到各个主题数下的困惑度,并绘图(见图 2)观察。 根据 图 2可以看出,主题数为 20

7、时,困惑度发生了明显变化,且随着主题数的增加,困惑度变化幅度不再显著。同时,根据观察所得结果,主题数为 20 时,各个主题之间差异相对明显,且能代表所有网络舆情。所以,选取最佳主题数为 20,主题模型结果如图 3 所示。 为了了解舆情的着重点,本文在训练得到的 LDA 模型基础上,得到每条舆情属于哪个主题,从而可以统计得出每个主题的主题强度,结果如图 4所示。 统计结果显示,主题 10、主题 11、主题 2依次占有较大比重,是舆情的主要焦点。通过总结归纳,主题 10主要与零售业相关,主 题 11主要与政府旅游规划相关,主题 2主要与政府立法活动有关。另外,通过主题模型的结果,还可以发现,水货客

8、(主题 3)、突发事件(主题 17)、酒店业(主题16)、社会矛盾(主题 20)、金融投资(主题 1)等也是澳门旅游业中相对集中的话题。 3 结 语 本文以澳门为例,将文本挖掘方法中的 LDA 模型( Latent Dirichlet Allocation, LDA) ?用于旅游网络舆情分析,对澳门地区 2015 年旅游网络舆情有了整体、客观的了解。这对于政府制定旅游政策和引导舆论方向,具有积极的借鉴意义 。 主要参考文献 付业勤,郑向敏 .网络新媒体时代旅游网络舆情研究:源起、价值与构想 J.河北学刊, 2013( 5) . T K Landauer, D S Mcnamara, S Dennis, et al. Handbook of Latent Semantic Analysis

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。