1、1泛在学习背景下“网上文献信息检索课”建设探究摘要本文以旅游网站网络日志作为研究对象,以流量统计软件作为数据采集工具,应用回归分析及相关分析模型研究影响网站流量的影响因素。研究结果得出了人均浏览次数、独立 IP 数和独立访客数 3 个指标对流量的不同影响程度。相关分析结果表明独立访客数与人均访问页面数显负相关关系。应用本文的研究结果将有助于改进网站性能,优化网站结构。 关键词网络信息计量学;网络日志;定量分析;Web;网站流量;旅游网站 DOI:10.3969/j.issn.1008-0821.2013.05.028 中图分类号G25072文献标识码A文章编号1008-0821(2013)05
2、-0126-05 现代电子通信技术的发展,传统工业的运行模式发生了很大的变化,尤其是互联网技术的广泛应用,促进了全新商业模式的产生,其中电子商务就是其中之一。旅游行业作为电子商务应用最广泛的领域之一,其作为第三产业的典型代表,近年来取得了长足的发展,互联网的发展为旅游业带来了全新的变化,互联网成为了旅游目的地与旅游者沟通的桥梁1,而旅游网站的建设则构成了旅游电子商务的重要组成部分,为此很多旅游企业均建立了自己的门户网站,网站内容及使用效率成为了旅游企业管理者、政府管理部门及游客所共同关注的问题,如何有效提高2网站吸引度、提高网站在搜索引擎中的排名及显著性,即旅游网站评价问题成为了当前旅游电子商
3、务的热点研究领域2。旅游网站评价分为定性评价与定量评价,而网络日志评价则是定量评价的主要内容之一,网络日志是计算机系统存储用户访问网站的信息记录,它存储了用户的大量信息,对这些信息的采集及分析,对于优化网站设计具有重要的意义1-4。根据 web analystic 协会标准委员会于 2006 年的定义5,基于网站分析需要特别关注的指标有 3 个,它们分别为独立访客数、访客数和流量,而流量被认为是最关键的指标。定量研究网站流量问题,对于优化网站、改进网站内容、提高被搜索效率起到至关重要的作用。 当前基于服务器日志文件的定量分析还处于起步阶段,现有的研究成果大都是进行简单的统计归总分析,没有进行变
4、量间的关联研究。基于此,本文以一具体旅游网站网络日志为研究案例,应用流量统计软件采集数据,使用计量经济学模型分析网络日志中的使用者数据,挖掘影响网站效率的关键因素,研究因素间的相关关系,为网站优化提供理论实证参考。 1 研究现状 综合而言,当前对旅游网站的研究注重于网站使用的外部性研究,未见有针对旅游网站服务器日志文件分析的研究成果,而旅游网站服务器日志文件含有网站使用者最全面、最真实的数据,这些数据是进行旅游营销、提高网站性能的最好参考资料,而当前对此研究存在海量旅游网站数据的与利用数据进行商务挖掘之间存在巨大差距,许多数据还只停留在简单的统计汇总阶段,没有进行深入的挖掘与分析,因此旅游网3
5、站服务器日志文件的数据挖掘具有创新性及实用性。 2 案例分析 21 案例说明 研究案例为一旅游网站,旅游网站网址(http: ,根据网站的介绍,该网站开通时间为 2010 年 8 月 26 日,于 2010 的 9 月 2 日起开始安装网站流量监测软件CNZZ。该网站为旅游官方网站,提供了旅游电子商务的基本功能,包括景点介绍、门票预订、酒店预订等。 22 数据来源 基于 web 网络日志的内容挖掘,当前主要采用二种方法进行数据采集,一种方法是独立开发专用数据采集软件,另一种方法是采用免费网站流量统计软件,其中第一种方法主要是用于专业数据挖掘,适用范围窄,第二种方法可应用于所有网站的数据自动采集
6、,适用范围广。本文数据采集源于免费商业网站数据采集集成软件 CNZZ 统计软件,数据提取时间段为 2010-9-2 至 2012-4-8,共 584 个数据。统计软件 CNZZ 提供了网站流量的时间序列数据,其中包括流量(PV) 、独立访客、独立 IP 数和人均浏览次数 4 个指标。 23 实证研究 为了分析影响网站流量的关键因素,本文拟构建计量经济学的回归分析模型,通过模型求出各变量系数值,从而得到各因变量对流量的影响程度。 231 构建回归模型 4回归模型因变量为流量值(PV) ,自变量为 3 个,分别为独立访客数、独立 IP 数和人均浏览次数。 232 数据稳定性检测 根据回归模型的建模
7、要求,模型各数据序列必须为稳定数列,如果数据序列不稳定,则必须先经差分处理变为稳定序列后才能进入回归模型。为检验数据的稳定性,计量经济学常用方法是引入 ADF 检验。案例数据序列的 ADF 检验结果及显著性水平对照如表 2 所示,从表中可以看出,建模所用的 4 个数据序列,其原始数据 t 统计量在 1%显著性水平下均不能通过 ADF 检验,经一阶差分后所有数据序列均通过了 ADF 检验,所以建模数据为一阶差分单稳序列。 3 结论 通过本文的研究可知,旅游网站网络日志也与其它网站日志一样,它存储了网站浏览用户的众多信息,这些信息包括用户的浏览特征、浏览工具、浏览次数、用户来源、停留时间等,本文通
8、过应用计量经济学理论模型进行定量分析,研究了不同指标对网站流量的影响程度。经过分析,结论表明在研究所考察的 3 个指标当中,对流量影响最大的指标是人均浏览次数,最小的是独立访客数,而独立 IP 数则处于中间位置。同时通过相关分析得知 3 个影响指标与流量之间呈现正相关关系,并且发现独立访客数与人均访问页面数呈负相关关系。总而言之,旅游网站日志挖掘是一个全新的研究对象,通过数据分析可以发现许多表面无法看见的内在变化规律,通过分析日志文件能够为旅游网站优化、提高网站效率起到积极的推动作用。 5致谢:广西师范大学梁宗经、覃小丹、陶秋伶、刘慧珍对本文也有贡献,在此表示感谢! 参考文献 1Beatriz
9、 Plaxa.Google analytics for measuring website performanceJ.Tourism Management,2011, (32):477-481. 2Law,R.,Qi,S.,and Buhalis,D.Progress in tourism management:A review of website evaluation in tourism researchJ.Tourism Management,2010,31(3):297-313. 3Omidvar,Mohammad Amin,Vahid Reza Mirabi,and Narjes
10、Shokry.Analyzing the Impact of Visitors on Page Views with Google AnalyticsJ.International Journal of Web & Semantic Technology,2011,2(1):14-32. 4Mohammad Amin Omidvar,Vahid Reza Mirabi,Narjes Shokry.Time Series modeling of visitors type on web analyticsEB/OL.http:world-comp.org/p2011/IKE2533.pdf,20
11、12-05-22. 5Association,W.A.Web Analytics“Big Three”DefinitionsEB/OL.Washington DC 20037,2006:1-5.http:www.webanalyticsassociation.org/resource/resmgr/PDFstandards/WebAnalyticsDefinitionsBig3.pdf,2012-05-22. 6中国互联网信息中心.第 28 次中国互联网络发展状况统计报告EB/OL.http: 7723a3a1.html,2012-02-22. 67袁梦如,何雨.我国 5A 级旅游景区网站功能
12、评价及优化对策J.旅游研究,2012,4(1):43-48. 8罗龙艳,窦厚玺.基于 AHP 的旅游搜索引擎评价分析J.科技管理研究,2011, (9):71-75. 9熊伟,叶淋玮.我国虚拟旅游网站的功能评价研究J.人文地理,2011, (2): 154-160. 10朱峰.国外“旅游与信息技术”研究进展及启示J.图书情报工作,2010,54(17):100-103. 11李君轶.基于游客需求的旅游目的地网络营销系统评价J.旅游学刊,2010,25(8):45-51. 12高静,肖江南.我国旅游网站建设评价初探-以携程旅行网为例J.情报杂志,2005, (4):38-40. 13钟栎娜,董晓莉,邵隽.基于 IPA 分析的中国旅游景区网站发展研究J.旅游学刊,2012,27(3):60-69. 14周春林,杨洁俞,肇元.旅游电子商务网站内容交付性测量与评价研究J.旅游学刊,2010,25(12):37-43. 15孙中伟,王杨.中国信息与通信地理学研究进展与展望J.地理科学进展,2011,30(2):149-156. 16孙建军.网络信息计量理论、工具与应用M.北京:科学出版社,2009. 17百度文库.网站流量统计信息解释EB/OL.http: (本文责任编辑:马卓)