1、支持向量机在股票预测中的应用【摘要】股票作为金融市场最主要的金融工具之一,其价格波动能够预测、以及用何种方法进行预测,一直以来都是金融领域研究的焦点问题之一。在目前国内外运用的各种预测方法中,统计学习理论得到了越来越高的重视。本文在介绍目前常用的股票预测方法的基础上重点介绍了基于统计学习理论的支持向量机方法在股票预测中的应用。阐述了支持向量回归机的原理,然后与神经网络方法相比较,显示了支持向量机预测方法的可行性和有效性。 【关键词】股票预测 支持向量机 非线性回归 神经网络 一、股市预测方法 股票发展至今已有 300 多年的历史,现在已经成为国家经济的“晴雨表” 。在股票市场中,无论对于机构投
2、资者还是个人投资者来说,预测股票价格走势一直是人们关心的问题。 (一)国内外现有股票预测方法简介 目前,从金融角度来讲,对股票价格趋势预测有两种方法:基本面分析和技术分析。一般所讲的基本面分析是指对宏观经济面、公司主营业务所处行业、公司业务同行业竞争水平和公司内部管理水平包括对管理层的考察这诸多方面的分析。这种方法有非常系统的理论依据,然而,我国金融市场中广泛存在的炒作现象经常使股票的价格严重背离其基本价值,使基本面分析在实务中被认同的程度不高。股票技术分析,是以预测市场价格变化的未来趋势为目的,通过分析历史图表、技术指标对市场价格的运动进行分析的一种方法。其目的是预测短期内股价涨跌的趋势。然
3、而,国内学者研究表明,中国股市存在非线性与混沌。股市是一个十分复杂的非线性高维动态系统,要对股市进行相关的预测分析是极具挑战性的。然而对股市的探索研究始终在取得新的突破。现在一些新型的技术理论的出现,例如数据挖掘技术、统计学习理论、机器学习、人工智能、数理统计、信息技术等空前的发展,极大的推动了相关领域的应用研究。 (二)机器学习在股票预测中的应用 求解非线性回归问题的方法有很多,如:局部线性模型、前馈神经网络模型、径向基函数模型等。结合上述股票预测方法,两种机器学习方法在实际运用中证明了其可行性。在其中神经网络模型在非线性映射中表现出其优越性,被广泛应用于股票市场预测中。然而,在实际应用中,
4、神经网络学习算法表现出其不足,如隐含层数的选择、过你核问题、局部极小值以及泛化性能不强。20 世纪 90 年代中期发展起来的基于统计学习的机器学习方法支持向量机(SVM)具有良好的泛化能力。他通过寻求结构化风险最小化,而非传统的经验风险最小化,使风险只与输入样本数目有关,而与输入的维数无关,避免了“维灾数”的问题。而且,SVM 的结构参数从样本学习中自动确定,从而克服传统神经网络结构不易确定的缺点。SVM 最初应用于模式识别,随着 Vapnik 的 不敏感损失函数的引入,SVM 已经扩展为解决非线性回归问题,与神经网络方法相比,有显著的优越性且在非线性时间预测方面取得很好的效果。 二、支持向量
5、机理论 SVM 理论是在统计学习理论的基础上发展起来的。由于统计学习理论和 SVM 方法对优先样本情况下模式识别中的一些根本性的问题进行了系统的理论研究,很大程度上解决了以往的机器学习中模型的选择与过学习问题、非线性和维数灾难问题、局部极小值问题等等。因此,SVM 理论越来越受到人们的重视。SVM 是针对二类分类问题提出的。 SVM 回归问题:设已知训练集(x1,y1) , (xn,yn),其中,xZ Rn,y1,-1,是类别标记符号。i=1,2,n。xi 是输入数据,yi 为对应的输出数据。样本数集中包含样本和噪声。目标是,根据对训练集所包含信息的学习,找到 y 对 x 的相关关系 y=f(
6、x) 。 回归问题分为线性回归和非线性回归两种。下面我们分别讨论线性支持向量回归和非线性支持向量回归。 (一)线性可分 其中, 是超参数。在实验中针对不同训练值调整,表示前后两项的权重。 越大,i 占有的优化权重越大。 求解过程类似线性可分,引入 Lagrange 函数,并将原问题转化为对偶问题求解。 三、支持向量机预测效果及与神经网络方法的比较 (一)与神经网络相比分类识别率更高 投资者在选取股票时,最关心的则是每股收益。因此每股收益在实证分析中通常被选为分类标准。选取每股净资产、股利支付率、每股股利、净资产收益率、留存盈利比例、流动比率、速动比率、负债比率、长期负债比率、应收帐款比率、存货
7、周转率、销售报酬率、净利润率、投资报酬率、净值报酬率这 15 个影响每股收益的指标作为输入样本的属性。在张晨希等人的实证研究中,对巨灵证券数据库产品 3.0 产品中的上市公司数据进行整理分析后所得到的样本的基本情况,并利用支持向量机对样本进行了交叉训练测试。用其中 9 组进行学习,一组用来测试,循环交叉。SVM、BP、RBF 三种方法的测试结果如下:分类测试得到以下结果:分类识别率为 70.068%,训练时间为 10.642s,测试时间约为0.4095s。 从测试结果中可以得出,在训练时间和测试时间与 BP 算法差不多的情况下,通过 SVM 取得的分类识别率明显高于 BP 和 RBF。 为了进
8、一步验证支持向量机在分类识别率上的优越性,试验者将原有样本属性类别由四类改成三类之后再次进行测试。结果显示: (1)采用支持向量机进行股票预测的分类准确率在将属性类别分为四类时明显高于 BP 和 RBF 算法。在分类为三类时,尽管 BP 算法也表现出了较高的分类识别率,但支持向量机仍要比 BP 高出 7%。因此,相比于传统的神经网络预测方法来说,支持向量机在预测效果上要明显提高。 (2)对比发现,支持向量机的分类识别率会随着决策属性类别的增加而降低。然而,始终由于同等情况的神经网络方法。 (3)相比于神经网络方法,支持向量机还克服了 BP 固有的缺陷,例如,学习过程收敛速度慢、网络性能差、局部
9、极小值等等。 然而,该试验的局限性在于,尽管支持向量机能够在股票是否盈利的预测中取得良好效果,但是在预测每股收益具体数值方面非常有待提高。 (二)预测值误差更小 在对股票预测方法的研究中中,田静提出了一种支持向量机算法,使得输出结果为准确的输出值,而非判断盈利与否的简单分类。文章对上证指数和四川长虹公司的股价进行试验,同时,在文章中,他也用 BP神经网络算法进行了同样的预测,并将两种方法的预测值分别与真实值进行比较,得出相对误差进行对比。 以四川长虹的预测结果为例, 支持向量机算法的预测值与真实值之间的误差最大为 1.28%,误差最小为 0.007%,平均相对误差是0.00556.;BP 算法
10、的预测值与真实值之间的误差最大为 2.46%,误差最小为 0.022%。 因此, 支持向量机方法无论对于大盘还是上市公司股价的预测都取得了比神经网络方法更优越的预测结果。原因可能是 BP 神经网络方法采用的梯度下降法得到的最优解是局部最优而非全局最优。 通过已有的对比研究发现,支持向量机方法在预测股票走势过程中体现出了更高的识别率和准确性。随着科学技术的发展以及人们对于股市预测的热情,在未来支持向量机的方法将在不断改进和完善的过程中得到更好地发展和更广泛的应用。 参考文献: 1徐绪松:古杂科学、资本市场、项目评价M。北京:科学出版社,2003. 2Burgers BC.A Tutorial on Support Vector Machines for Pattern RecognitionJ. Data Mining and Knowledge Discovery, 1998. 3财政部注册会计师考试委员会办公室。财务成本管理M.北京:经济科学出版社,2003. 4张晨希.基于支持向量机的股票预测J.计算机技术与发展,2006. 5郭辉.支持向量机选择及其在股票走势预测中的应用J.重庆师范大学学报,2007. 6汤建明.基于神经网络的股票预测D.华中科技大学,2006.