1、1网络搜索数据与 GDP 相关性分析摘 要:网络搜索数据包含了社会各个领域的兴趣和关注点,本文根据支出法中的微观经济要素来研究网络搜索数据与我国国内生产总值(GDP)之间的相关性,以及两者之间的先行滞后关系。关键词数据与GDP 数据均为季度数据,先对两者进行季节调整;再对参与分析的 21 组网络搜索关键词数据做主成分分析,共提取出三个主成分,占关键词总方差的 86.94%;然后根据三个主成分构建网络搜索综合指数。将网络搜索综合指数与标准化之后的 GDP 数据做分析发现两者存在长期稳定的协整关系,Granger 因果关系检验的结果说明网络搜索综合指数是标准化之后的 GDP 数据的 Granger
2、 原因,对于 GDP 的预测有一定的帮助。 关键词:网络搜索数据;GDP;季节调整;主成分分析;协整关系 1 引言 根据 2014 年 1 月中国互联网络信息中心(CNNIC)公布的2013 年中国网民搜索行为研究报告指出:2013 年,国内搜索行业呈现多元化的发展趋势,新进入的搜索引擎和现有搜索竞争较为激烈,不断细分的搜索市场和性能持续提升的终端设备正改变着用户的搜索习惯。综合搜索仍然是最基本的搜索工具,过去半年,搜索网民使用过的综合搜索网站的比例达 98.0%,此外,通过购物网站、视频网站、微博进行过搜索的网民比例也在 50%以上。CNNIC 每半年对网民数量进行统计,结果显示,截止 20
3、14 年 6 月 30 日,我国网民数量达到 6.32 亿,接近总人口的250%。从中国互联网络信息中心 2013 年出版的第 33 次中国互联网络发展状况统计报告可以得到,我国网民年龄结构中,10-59 岁的阶段占据了总人口的绝大部分,这部分人群不仅是网络的常客,也是社会经济发展的主力军,他们拥有很强的生产能力及消费能力,因此通过网络搜索数据探讨网民的消费活动,研究其消费方式及主要消费内容,通过产品形态来验证网络搜索数据行为与 GDP 的相关性分析是具有现实意义的。 2 概念框架的构建 本文主要把生产者生产及居民消费过程划分为需求、信息搜寻、决策三个过程,生产者有投资需求之后,通过网络搜索投
4、资相关信息,对其生产决策将产生一定的影响,同样地,消费者有消费需求之后,通过网络搜索消费相关关键词,能够对其消费决策产生一定的影响,然而生产和消费影响市场价格,消费者与生产者也可通过网络搜索信息来了解当期市场价格。 总的来讲,不论是消费还是生产,不论是市场价格体系还是宏观经济体系,均与网络搜索有很强的相关性,因此通过网络搜索关键词,分析关键词的指数变化与 GDP 的变化是否具有相关关系是具有一定的理论基础的。 3 研究方法及流程 主要对网络搜索数据与我国 GDP 的相关性进行研究,通过用户运用搜索引擎搜索相关关键词这一方式,来分析其能够对国家 GDP 产生什么样的影响。 简单来讲,研究过程为:
5、数据获取、数据处理、数据分析三方面。 3(一)数据获取 获取数据是分析的基础,数据获取首先要选用搜索引擎,纵观全球,运用最多的引擎是谷歌,但在我国,由于网络限制的影响,用户运用最多的是百度引擎,因此运用百度搜索数据来对 GDP 的趋势进行预测是更符合实际的。 第二,获取数据需要对关键词初选并进行挖掘。根据 GDP 的定义、作用、影响因素等,运用 Google correlate 关键词挖掘工具和 SEO 关键字挖掘工具以及 ICTCLAS 汉语分词系统三者结合选出与 GDP 相关系数最大的关键词,本文共初选关键词 33 个。 第三,关键词指标获取。将第二步获取的 33 个关键词导入百度指数,搜
6、索 2011 年初至 2014 年末的关键词月度指标共 48 组。 第四,GDP 季度数据获取。在国家统计局公布的历年数据中,查找2011 年初至 2014 年末的我国 GDP 季度数据共 16 组。 (二)数据处理 由于国家统计局公布的 GDP 数据最小单位为季度数据,并且是相对数据,因此需要将前期获取的 48 组关键词月度数据数据转化为季度数据,而且百度指数上的关键词指标是绝对指标,所以还需将关键词数据转化为相对指标,才能够与 GDP 数据进行分析。 (三)数据分析 由于 GDP 数据具有很强的时间性,因此运用 Eviews 对 GDP 及关键词数据进行时间序列分析,但若将所选中的 33
7、个关键词全部导入作为变量,可能会很复杂,因此运用 SPSS 软件先对关键词数据进行主成分分析,提4取出具有代表性的几个主成分,再与 GDP 进行相关性分析。 4 网络搜索数据与 GDP 相关性实证分析 (一)关键词选取与预处理 不同的网络搜索关键词在网络上会有不同的关键词信息,但选取关键词不能仅仅靠平时的经验和熟悉程度,而要选择科学的取词方法来进行关键词挑选。前文已经提到,选取关键词采用 Google correlate 关键词挖掘工具、SEO 关键字挖掘工具和 ICTCLAS 汉语分词系统三者结合来进行关键词挖掘,从宏观方面选择了经济发展形势、企业投资、劳动报酬、就业率等关键词,根据以上宏观
8、因素,再利用百度指数关键词推荐功能,选择与影响我国 GDP 的宏观因素相关的关键词共有 1300 多个,剔除重复及数据量较少的关键词,组成初始关键词组,共有 101 个。将初始关键词组逐个导入百度指数之中,剔除百度指数中没有收录而且每月搜索指数较低的关键词,最终选取了 33 个关键词来进行分析。 (二)网络搜索综合指数和季节调整及标准化之后的 GDP 数据的协整性 1.序时图判断平稳性,对两组数据做序时图,发现两者均存在明显的线性趋势,需进行单整检验。 2.对两组数据进行单整检验,首先分别对 GDP 数据与 X 数据进行 ADF检验,发现,两者都是一阶单整。 3.Johansen Cointe
9、gration Test 检验两者是否存在协整关系,结果发现不能拒绝存在一个协整关系,具体见下表: (三)网络搜索综合指数和季节调整及标准化之后的 GDP 数据的 Granger 因果检验 5经验证 GDP 与 X 存在协整关系,对两者做格兰杰因果检验,发现 X does not Granger Cause GDP 的概率为 0.037, GDP does not Granger Cause X 的概率为 0.9269 说明网络搜索综合指数 X 是季节调整及标准化之后的 GDP 数据的 Granger 原因,对 GDP 预测有帮助。 5 结论与不足之处 本文先从理论上分析网络搜索数据与 GDP
10、 发展的相关性,进一步分析网络搜索数据与 GDP 发展具有相同的增长趋势,再通过实证分析对其相关性进行验证,并且做了 Granger 因果关系检验,得到的相关结论如下: (1)对 GDP 的分析基于居民消费为中心展开,消费者消费及生产者生产在互联网上均有体现,消费者有消费需求,就会通过互联网搜索相关信息,生产者有生产需求,也会通过互联网了解生产渠道,生产品相等相关信息,以上变化在互联网上表现为浏览指数的变化,在商品市场中则表现为 GDP、CPI 等指标的变化,两者的变化都是对同一事物的反映,因此两者具有一定的相关关系。 (2)实证分析结果表明:网络搜索数据与 GDP 之间存在长期稳定的协整关系
11、。 (3)Ganger 因果检验的结果说明网络搜索综合指数 X 是季节调整及标准化之后的 GDP 数据的 Granger 原因,对 GDP 预测有帮助。 总的来讲,用网络搜索数据与 GDP 来进行相关性分析还存在一些问题,有待进一步改善。首先,本文选择百度引擎来做相关分析是因为我国运用百度引擎的用户占大多数,但是百度指数的相关数据是由 2011 年6开始做记录的,从 2011 年第一季度到 2014 年第四季度仅有 16 组数据,所能够搜集的数据量较少,如今 2015 年第一季度才刚刚过去,因此模型预测仅有 2015 年第一季度作为对照,能够验证模型的数据较少,谷歌趋势上的数据从 2009 年
12、开始,但就我国来讲,运用谷歌引擎来进行搜索的用户仅有极少部分,因此用谷歌数据来进行分析是没有依据的,若今后能够运用各个引擎综合分析,就能大大提高预测精度。其次,关键词的选择对模型的建立具有至关重要的作用,相关关键词的选择是否准确全面,将直接决定预测的结果,与 GDP 相关的关键词页并不是一层不变的,所以要建立科学的流动关键词库,使其能够快速准确的反映居民消费的动态现象。 参考文献 1 张崇,吕本富,彭赓,刘颖.网络搜索数据与 CPI 相关性研究J.管理科学学报,2012(07).50-58. 2 中国互联网络信息中心.2013 年中国网民搜索行为研究报告EB/OL,2013. 3 中国互联网络
13、信息中心.2014 年中国网民数量统计基本数据EB/OL,2014. 4 樊国虎.网络搜索数据与消费者信息指数的相关性研究J.经济与管理,2014. 5 Askitas N,Zimmermann K F. Google econometrics and unemployment forecastingJ. Applied Economics Quarterly,2009, (2).107 -120. 76 Cho H i,Varian H. Predicting the Present with Google TrendsC. Technical Report,2012,88.2-9. 7 刘颖,吕本富,彭赓.网络搜索对股票市场的预测能力:理论分析与实证检验J.经济管理,2011(1).172-179. 8 袁庆玉,彭赓,刘颖等.基于网络关键词搜索数据的汽车销量预测研究A.管理学家,2011(01).13-22. 9 董倩、孙娜娜、李伟.基于网络搜索数据的房地产价格预测J.统计研究,2014,31(10). 10 朱辉. 浅析中国国内生产总值的核算,集团经济研究J. 2006(33). 11 郑佩枫. 试探微博公众舆论场的新特征,魅力中国J. 2014(07).