通过股市新闻和股票价格预测股票市场.doc

上传人:99****p 文档编号:1800517 上传时间:2019-03-16 格式:DOC 页数:6 大小:27KB
下载 相关 举报
通过股市新闻和股票价格预测股票市场.doc_第1页
第1页 / 共6页
通过股市新闻和股票价格预测股票市场.doc_第2页
第2页 / 共6页
通过股市新闻和股票价格预测股票市场.doc_第3页
第3页 / 共6页
通过股市新闻和股票价格预测股票市场.doc_第4页
第4页 / 共6页
通过股市新闻和股票价格预测股票市场.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、通过股市新闻和股票价格预测股票市场【摘 要】文章结合股市新闻和股票历史价格,首先将股市新闻作为多重核的一个子核,利用中文分词软件对股市新闻进行分割,并从中选取 1000 个有代表性的词语处理后作为股市新闻子核的特征空间;然后选取 11 个指标对股票历史价格进行了处理并将其作为另外一个子核的特征空间;最终利用线性加权的方法对两个特征子空间进行合成,并进行仿真。 【关键词】股票市场预测;中文分词;多重核学学习;交互验证;网络搜索 一、研究背景 股票市场是当今金融市场主要部分之一,金融市场的投资者与预测者都想通过分析市场信息从而获得更多利润。通过有效市场假说(EMH) ,我们知道股票价格包含且反映了

2、市场信息,但是,一些研究行为金融学的学者质疑了 EMH 的准确性,因为投资者会被各种市场信息和他们的心理所影响,从而造成不合理的投资举措。为了将多重信息整合到同一个系统当中,我们运用了多重核学习方(MKL) ,采用两个子核:一个运用股市新闻,另一个运用近期历史价格。在研究了子核的权重后,我们可以得到合成核,从而我们的改进的模型给出了一个比传统更准确的预测。二、模型设计 (一)信息来源 我们的系统是以两个信息为来源设计的:股市新闻和事前价格。所以系统的输入应该有如下几个特征:(1)时间戳记:每个股市新闻与一个时间戳记联系,它表示这个新闻的发行时间;(2)逐笔交易数据:交易数据往往记录在一个短时间

3、段中;(3)同时:因为系统需要用价格变动来标记股市新闻,股市新闻和历史价格必须是同一时间段的信息; (二)股市新闻信息的预处理 股市新闻可以理解为一种需要我们进行预处理的原始数据资源,其预处理的主要步骤如下:(1)中文分词:我们用中文分词软件对股市新闻数据进行分词。该中文分词软件可以对文字信息合理地划分,但是许多金融领域的一些特殊术语不能被该软件准确地分词,因此我们用金融字典对分词软件的输出进行二次加工;(2)词语过滤:首先删去中文停止词,例如:和、或等。然后过滤掉其他不重要的词语,只留下典型的具有代表性的词语,例如:名词、动词和形容词;(3)特征词语精选:不是余下的词语都可以作为特征词语留下

4、,Feldman 只选择了过滤后余下的 10%作为特征词语。于是我们根据卡方分布选择了过滤后总共 7052 中的前 1000 个词语作为我们系统的特征词语;(4)赋予权重:最后为1000 个词语赋权,我们计算作为每个词语的权重。 (三)历史价格的预处理 原始的逐笔交易数据通过以下步骤来进行预处理:(1)排序:因为交易不可能按照它们的时间戳记来排序,所以我们必须先按照时间戳记来对整个记录进行排序。 (2)插入添加:因为连续交易之间的时间间隔不一样,有些时间段甚至不可能有记录,所以存在一个问题:在那些空时间段中,我们需要加入什么价格值。有两种方法解决这个问题:一是线性时间权重通过 Dacorogn

5、a 来排序;二是最近的收盘价格。该方法将逐笔交易数据以同一分钟为基础分开,将每分钟最相近的价格放在一起。如果某一分钟没有记录,那么上一分钟的记录将为代替。尽管两种方法都可以实现,我们选择了第二种方法,因为它的实现过程较为简单。 (四)结合股市新闻和历史价格 1.提取加工股票的历史价格。为了使计算机能使用这两种信息数据,我们需要将这些原始数据处理为算法需要的输入数据。假设股市新闻的时间戳记为,此时对应的股票价格为,则其后 5、10、15、20、25 和 30分钟的股价分别表示为, , , , ,和。如果,例如超过了交易时间限制,这个股市新闻将会被删掉。我们将股市新闻发布后的股票价格通过下面的公式

6、转化为回收率: 我们以市场平均交易价格的为临界值,如果,股市新闻将会标记称积极的消息,反之如果 则标记成消极的消息。在股市新闻发行之前的三十分钟到一分钟时间段内,我们的实验每隔一分钟抽取一次样本作为股票的历史价格。Cao 和 Tay 将股价序列转换为 RDP 指标,通过他们的方法,我们用同样的计算的公式对股票价格进行处理。 除了 RDP 指标,我们运用了其他用于股票分析的市场指标,计算该股市指标的公式列在附录 2 中,其中是第分钟的股价,是时间顺序。最后,30 个历史股价点转化为 6 个 RDP 指标和 5 个市场指标,在后面的模型中它们将作为简化的指标。 2. 数据的标准化处理。在完成以上工

7、作之后,我们得到了:(1)股市新闻实例的集合,用 N 表示;(2)指标实例的集合,用表示;(3)由对股市新闻的标记构成的向量。其中 N 中的每一个实例对应于一条新闻消息,每一个特征分量代表一个被选中的文字;中的每个特征分量对应于一个指标;于是标准化处理可以分为两种情况进行讨论:第一,当和的特征分量只取非负值时,用表示,标准化处理如下: 标准化之后的取值范围为0,1。第二,当和的特征分量可以取正负值时,用表示,标准化处理如下:标准化之后的取值范围为-1,1。 三、实验结果及分析 (一)数据集 选取相关的股市新闻信息和市场价格作为实验数据集。 (1)股市新闻信息:实验运用了来自 Caihua 20

8、01 年的股市新闻信息,所有的新闻信息都是用繁体中文发布的,并且每条新闻信息都有一个时间戳记以表明它的发布时间。 (2)市场价格:市场价格包括 2001 年香港交易所所有股票的价格。股市新闻信息的时间戳记和股票市场价格以每笔交易为基础。港交所有成千上万支股票,而并不是所有的股票都很活跃,我们主要关注恒生指数在 2001 的 33 支股票,然而恒生指数的组成分别在 2001年 6 月 1 号和 7 月 31 号发生了两次变动,根据,新增加的股票在前几个月内价格的变动是不合理的,通常会发生定价错误,因此我们选择那些一年内都是恒生指数组成股的股票作为研究对象,则只有 23 支股票满足要求。我们选择这

9、 23 支股票前 10 的月的数据作为训练集合,最后两个月的数据作为检验集合,用以检验模型的精确性。 (二)参数的计算 在模型训练的时候,通过网络搜索和五摺交互验证来确定参数的值,以模型 1 的训练为例,假设 SVM 的参数为?%和 C,对于?%的计算,以0.2 为步长从 0 到 10 进行搜索,对于 C 的计算,以 1 为步长,从 1 到 20进行搜索,则总共有 5020=1000 种参数组合,也就是算法要运行 1000次。在每一次循环中,通过五摺交互验证来验证模型的效果,也就是将前 10 个月的数据平均分为 5 个部分,用其中的 4 个部分训练模型,剩余的 1 个部分用来验证模型的预测效果

10、。在 1000 中参数组合中,保存使模型的预测效果做好的那一组参数值,并用于最后的模型检验。在模型中,参数的计算方法是一样的,对于模型 4,我们选用通过模型 1,2 得到的?%值,参数 C 的值则通过与其它模型一样的方法得到。 (三)实验结果 我们用准确度来衡量模型的预测效果,其中: 从交互验证以及网络搜索所得实验结果我们能看出:(1) MKL 经交互验证以及网络搜索得到的预测结果(除在第 5 的交互验证和第10m,25m 的网络搜索的结果外)都优于其余三个模型。尽管自然组合的方法和 MKL 都运用了股市新闻信息以及市场价格,但是自然组合方法没有像预期那样比依赖于单种信息的模型表现得好,原因可

11、能是简单的将股市新闻信息和指标集的特征分量的结合导致了对某种特征分量的偏向。特征分量在很大程度上偏向了股市新闻信息一方,这正如图 1 所表现的那样,自然组合的图形与简单依赖于新闻信息的图形十分接近;另一方面,MKL 平衡了股市新闻信息和市场价格之间的可预测性(股市信息和股票价格都有各自的特点,隐藏在他们背后的信息能形成互补) 。相比于交互验证,MKL 经网络搜索的表现虽然有所下降,但依然获得了 4 个最好的预测结果和 2 个次好的预测结果。 (2)从图 1 和 2 中可以很明显的看出指标集对股市的预测效果的走势几乎总是向下的,这表明价格的可预测性随着时间的推移在慢慢下降,这和我们通常认为随时间

12、按推移市场信息会逐渐被市场所吸收、可预测性会逐渐下降这一观点相契合。 (3)从图 1 可以看出,模型 1,3,4 的准确度曲线在第分钟时达到最高点,并且这三个模型都运用了股市新闻信息,这说明股市新闻的可预测性在第分钟时达到最高,结论和的研究发现一致。 参考文献 1E.F. Fama. The behavior of stock market prices. Journal of business, 38(1) , 1964. 2G. Fung, J. Yu, and W. Lam. News sensitive stock trend prediction. Advances in Knowledge Discovery and Data Mining, pages 481-493, 2002. 3G.P.C. Fung, J.X. Yu, and H. Lu. The predicting power of textual information on financial markets. IEEE Intelligent Informatics Bulletin, 5(1):1-10, 2005.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。