1、旅游网络舆情主题分析 :以澳门为例 摘 要 随着旅游产业的逐步发展和 Web 2.0 时代的到来,各种与旅游目的地相关的舆情见诸网络,因此而产生的旅游网络舆情数据量也与日俱增。然而,如何从海量的旅游网络舆情数据中提取有价值的信息,成为了急需解决的问题。本文以澳门地区为例,从互联网上采集与该地区相关的旅游舆情数据,采用文本挖掘的相关技术,建立主题模型并进行分析。这对于旅游企业维护企业形象、制定发展战略;政府进行旅游目的地舆情监测及制定建设规划,具有积极的借鉴意义。 下载 关键词 旅游;网络舆情;澳门 doi: 10.3969/j.i 中图分类号 F592.7 文献标识码 A 文章编号 1673-
2、0194( 2017) 14-0-02 0 引 言 随着社会经济的平稳发展,我国旅游业进入了蓬勃发展阶段。同时,随着信息技术的快速进步,新兴的社会化媒体和传统的大众媒体,更加便捷地通过互联网对旅游热点事件或议题表达情感、意见、观点和态度。旅游网络舆情这一新兴的网络现象,越来越被科研工作者、政府、旅游企业所重视。针对旅游网络舆情数据量大、噪声多的特点,本文采用主题模型的方法对其进行分析研究,不仅可以及时掌握旅游者出游 过程中的利益诉求,还可以了解旅游目的地的热点问题,从而为政府机构和旅游企业提供有价值的决策信息。澳门作为世界上有名的旅游目的地之一,广受广大旅游爱好者尤其是内地游客的喜爱。自 20
3、03 年澳门自由行政策开放以来,赴澳旅游人数大幅增加,其间的旅游问题层出不穷。因此,本文拟采集澳门旅游网络舆情的相关数据,建立主题模型并进行分析,并最终给出结论。 1 主题模型 主题模型是目前文本挖掘领域常用的语言模型,是结合机器学习和自然语言处理等相关方法的一种统计模型。主题模型的基本思想认为文本是由多个主题混合 而成的,而主题是特征词上的一种概率分布,即每篇文本是主题的混合分布,而每一个主题是一组特征词的混合分布。主题模型中最常用的是 LDA( Latent Dirichlet Allocation)。类似于分层贝叶斯, LDA模型包括 3 层(语料层、文档层、词层),如图 1 所示。灰色
4、阴影部分 W 代表可观测随机变量, Z和 代表潜在变量, 和 是在语料层的超参数,矩形框( plate)代表贝叶斯概率求解的迭代过程。最外边的矩形框 M 代表文档,里面的矩形框 N 代表在一个文档中重复地选择潜在主题和词。 其中, 是服从 Dirichlet分布的参数,决定主题之间的差异性, 越小,主题之间差异性越大; 是一个 1K 的随机列向量,表示各主题发生的概率, P( ) Dirichlet( ); zi, j 是由 i 概率分 P( ),产生的离散随机变量,表示文档 i 中词 j 的话题概率; 是一个 K|V| 的矩阵,表示话题 K 的词汇概率分布,且 是 分布的超参数。那么,在 和
5、 已知的情况下,可以得到 、 z、 w 的联合分布: 因此,在 LDA 模型中,只需要知道 和 的参数值便可用于表示文档集。通过贝叶斯概率模型,使用极大似然估计( EM)的方法求 和 的后验分布 。具体的参数估计方法此处不进行赘述。 困惑度( Perplexity)是一种常用来衡量主题模型的指标。通常来说,一个较低的困惑度的模型表示具有更好的泛化性能力。对于 M篇文档,困惑度的定义如下: 2 主题建模与分析:以澳门为例 2.1 数据来源及预处理 针对澳门地区 2015年的旅游网络舆情,本文使用网络爬虫采集每条舆情的标题、内容、发布时间,其中,将发布时间转化为时间戳,作为该舆情的唯一标识符( I
6、D)。接着,对采集的内容进行清洗、分词、去停用词等预处理操作。 值 得注意的是,采集的澳门旅游舆情数据为繁体字,并不能简单地将其转换为简体字进行处理。因为粤语在表达方式上与普通话存在一些差别。因此,为了保证模型的效果,本文没有采取繁转简的操作,而是针对语料特点,反复迭代建立繁体停用词表及字典。 2.2 主题模型训练与结果分析 在预处理的基础上,本文对 2015年澳门旅游网络舆情数据建立 LDA主题模型。为了确定需要的主题的个数,本文先设定主题数分别为 10、 20、 30、40、 50、 70、 90,分别得到各个主题数下的困惑度,并绘图(见图 2)观察。 根据 图 2可以看出,主题数为 20
7、时,困惑度发生了明显变化,且随着主题数的增加,困惑度变化幅度不再显著。同时,根据观察所得结果,主题数为 20 时,各个主题之间差异相对明显,且能代表所有网络舆情。所以,选取最佳主题数为 20,主题模型结果如图 3 所示。 为了了解舆情的着重点,本文在训练得到的 LDA 模型基础上,得到每条舆情属于哪个主题,从而可以统计得出每个主题的主题强度,结果如图 4所示。 统计结果显示,主题 10、主题 11、主题 2依次占有较大比重,是舆情的主要焦点。通过总结归纳,主题 10主要与零售业相关,主 题 11主要与政府旅游规划相关,主题 2主要与政府立法活动有关。另外,通过主题模型的结果,还可以发现,水货客
8、(主题 3)、突发事件(主题 17)、酒店业(主题16)、社会矛盾(主题 20)、金融投资(主题 1)等也是澳门旅游业中相对集中的话题。 3 结 语 本文以澳门为例,将文本挖掘方法中的 LDA 模型( Latent Dirichlet Allocation, LDA) ?用于旅游网络舆情分析,对澳门地区 2015 年旅游网络舆情有了整体、客观的了解。这对于政府制定旅游政策和引导舆论方向,具有积极的借鉴意义 。 主要参考文献 付业勤,郑向敏 .网络新媒体时代旅游网络舆情研究:源起、价值与构想 J.河北学刊, 2013( 5) . T K Landauer, D S Mcnamara, S Dennis, et al. Handbook of Latent Semantic Analysis