1、开放式股票型基金的仓位预测研究【摘要】公募基金仓位是机构投资者对市场的预期,也是投资者判断后市走向的指标,其增减仓动作一直受到投资者的高度关注。本文在比较各种仓位预测方法后选择基于数据挖掘的 BP 神经网络作为建模方法,收集华夏基金年报仓位数据,利用数据挖掘技术分析选择出相关性最优的变量,在 MATLAB 中设计优化出基金仓位预测模型,简化网络结构,提高预测精度,并证明了神经网络在投资风格预测中的有效性和普适性。 【关键词】基金仓位;神经网络;投资风格 一、引言 公募基金行业作为我国迅猛发展的金融理财行业,规模不断扩大,投资者队伍迅速壮大。基金仓位反映市场信心,可以作为投资者判断后市走向的重要
2、指标。对基金仓位的预测一直是学术界和投资者感兴趣的问题之一,具有实际应用价值。对于关于基金仓位预测模型的研究,目前国内还局限于传统线性回归方法,前提假设过于苛刻,忽略了很多影响仓位的动态因素,造成无法容忍的误差。目前公募基金的仓位数据仅在每年发布的定期报告中有所体现,但是按照年报频率公布的基金仓位并不能作为一个连续的后市预期指标,我们希望能够得到即时基金仓位,帮助投资者规避风险。本文运用神经网络建立仓位预测模型,利用现有基金市场行为的样本,从中自主寻找规律逼近复杂的仓位走势曲线,达到更好的预期效果。 二、基金仓位预测方法综述 目前,关于基金仓位预测的方法主要包括以下三种。 1.基于收益的基金仓
3、位分析方法,是以夏普在 1992 年提出的基于收益的基金投资风格分析理论为基础,通过对基金收益与市场风格指数涨跌幅进行统计计算,估算出基金在不同风格资产上的配置比例,从而获得基金投入股市的仓位值。该方法可以在一个中观的维度上为基金投资者提供较为长期的和可持续的投资建议,但是在回归过程中存在多重共线问题,可能产生较大的参数估计标准差,使得预测误差较大。 2.传统的线性预测模型,经历了三个发展阶段,由于理论和算法的创新,测算准确性也有了明显提高。第一阶段的模型,将样本基金收益率均值除以基准指数收益率得到基金平均仓位,其过程简单,处理步骤少,但是测算结果跳跃性较大,并且对基金市场指数的选取依赖性强。
4、第二阶段的模型,对基金收益、市场指数收益时间序列数据进行回归测算,初步消除了第一阶段模型的噪声,但是回归期限过长或过短都会对仓位测算结果带来较大的误差,且固定的回归期限使测算与实际结果之间产生时滞。第三阶段的模型,对单只基金与其基准的收益序列进行动态回归,通过对回归期限的动态调整,实现仓位测算工作的智能化和自动化,由于测算的样本是基金仓位数据的云重心,因此能有效消除了前两个阶段测算模型带来的系统误差。 3.非线性数据挖掘分析法,是直接对基金持股情况进行数据挖掘,深入剖析基金组合中各类别资产的增持减持情况,依据对基金行业资产的中观分析,最终实现对基金大类资产仓位的宏观分析。此测算模型打破了 RS
5、V 法仅仅依据收益数值来进行测算、结果不具可对比性的缺陷,引入收益分布、波动率等多个指标,动态测算各分类资产相应指标对基金该指标的贡献度,提高了测算的可对比度,过滤了单一指标会引起系统性误差的缺陷,并引入因子分析、聚类分析、最优化等方法,进一步提高计算结果的精确性。 本文将结合基于收益的基金仓位分析方法和非线性数据挖掘分析法,借鉴基金仓位测算模型回归方法中的自变量取值和影响因素,运用非线性系统分析法中的 BP 神经网络建立仓位预测模型。 三、基于 BP 神经网络的仓位模型构建 1.影响基金仓位变动的主要因素 本文选取的基金仓位是基于基金投入股市的资金市值和基金总资产现值,因此,所有会影响股票价
6、格和基金价格的因素都会影响基金仓位的变动,并且,各因素之间的相互作用也会对基金仓位产生影响。 从基金净值方面考虑,基金总资产的现值与基金交易价格密切相关。影响基金净值的因素包括三个方面,即基金单位资产净值、基金市场的活跃程度和银行存款利率。其他各种政治、经济和人文因素,例如外汇市场汇率变化、资金市场利率变化、投资者的心理因素也会影响仓位。这些数据在基金定期报告中具体表现为:期末基金份额净值、基金市值、期末基金资产净值、基金收益率、基金单位交易开盘价、基金持股集中度、基金的持仓行业集中度,收市基金指数、基金换手率、基金折价率、居民价格消费指数、银行利率。 从股票市场价格方面考虑,股票的市场价格最
7、直接的影响因素是供求关系,市场内部因素、基本面因素和政策因素通过作用于供求关系而影响股票价格。具体表现为基金持有股票组合的收益率、股票市值增长率,持有股票的开盘价、最高价、最低价、成交量、收盘价及MACD、KDJ、RSI、PSY 技术分析指标。 2.因素相关性分析及边界划分 结合数据特征,本文选取 2008 年 10 月 1 日至 2012 年 10 月 1 日时间段,在此期间,已经历过金融危机,国内经济缓慢复苏,宏观政策调控没有巨大变化,华夏基金度过了 2008 年第三季度的最强金融危机冲击后,持续保持平稳发展。由于国际贸易收支、国际金融市场等因素不足以影响具体仓位值,政治局势、突发事件等因
8、素不在预测范围内,所以都划在本研究边界之外。 将以上基金年报中的具体数据期末基金份额净值、基金市值、期末基金资产净值等和最终仓位值导入 excel 中的 data analysis 模块进行相关性分析。用 Correlation 工具算出 Pearson 相关系数,可得到期末基金份额净值、基金市值、期末基金资产净值、基金收益率、基金单位交易开盘价、基金折价率、基金换手率、收市基金指数、股票组合的收益率、股票市值增长率、股票市值加权、MACD 仓位值的 Pearson 相关系数超过 0.5,将这 12 个变量划在最终边界内作为研究因素。 3.数据采集与预处理 本文选择华夏基金旗下华夏成长证券投资
9、基金、华夏大盘精选证券投资基金、华夏优势增长股票型证券投资基金等 10 种基金在 2008 年 10月 1 日至 2012 年 10 月 1 日的数据,作为建立模型和网络训练的样本集。根据模型建立的需要,BP 神经网络要求样本集合理区间为0,1,本文运用公式 X=(X-Xmin)/(Xmax-Xmin)对样本集进行归一化处理。其中 Xmax、Xmin 为最大值和最小值,X 为原始数据,X为转换后数据。将数据预处理后分为两部分,前 250 个数据作为模型的训练集,剩余的50 个数据作为模型的测试集。 图 1 预测模型的网络结构 4.BP 神经网络建模 本文构建基金仓位预测模型,侧重研究基金一个周
10、期中仓位走势的变化,所采集的数据无法达到海量。根据 Kosmogorov 定理基本原则,在有合理结构和恰当权值时,有三层结构的前馈网络就能逼近任意的连续函数,模型设计为单隐含层和输出层两个网络层次。选择期末基金份额净值、基金市值、期末基金资产净值、基金收益率、基金单位交易开盘价、基金折价率、基金换手率、收市基金指数、股票组合的收益率、股票市值增长率、股票市值加权、MACD 指标作为神经网络的 12 个输入向量,基金仓位作为唯一输出向量。根据 Kosmogorov 定理,初步设定隐含层结点数为 2n+l 即 25 个,并利用 BP 网络默认初始化函数 initnw 设计初始权值。考虑到本研究的原
11、始数据经过归一化处理后符合 S 型对数函数的取值范围,选择 tansig 作为隐含层传递函数,logsig 作为输出层传递函数。学习函数选择学习率可变的动量 BP 算法 traingdx 及梯度下降动量学习函数 learngdm。性能函数选用误差性能函数为均方的误差函数mse。模型网络结构如图 1 所示。 根据以上结构和参数,在 MATLAB 中建立起基金仓位预测模型,在训练 200,000 次,隐含层节点数目为 25 的情况下,训练目标达到0.0001,但是收敛速度较缓慢,未达最优模型。 5.优化模型 在优化阶段,初始节点数在15,25范围之间进行多次尝试比对。根据仿真输出结果与真实值间的拟
12、合程度及误差大小,最终确定隐含层节点数目为 22,其预测误差为 0.29998 达到最小,并且均方误差为0.000999315 也为最小,收敛速度较快,达到误差目标值需经过 2338 次训练,训练时间适中。同时选择尝试法确定初始权值。由于网络中隐含层和输出层节点的范围在 0 到 1 之间,初始权值选择为分布在 e0.1num22之间的随机数,其中 num 为该连接权值的输入节点数。观察监测网络的训练效果、拟合效果后,基金仓位预测模型确定最终初始权值矩阵。 建立隐含层节点数为 22,优化初始权值的 BP 神经网络后,经过 30万次训练达到训练目标,完成学习成熟的仓位预测网络。 四、实证结果分析
13、将 50 组测试集数据输入模型,在 MATLAB 中将预测仿真结果和实际数据进行对比,如图 2 所示。 1.拟合:从拟合效果图观察,每个测试基金的仓位预测结果与真实值间的偏差在可承受范围之内。获得判定系数为 0.69261,拟合程度远远高于相同样本线性回归预测结果 0.389。在同一预测期下不同基金的仓位预测值与真实值的相对关系是一致的,说明预测模型对于所研究的行业内的不同基金走势判断都有良好适用性,所建立的预测模型是具有一定意义和价值的。 图 2 模型测试数据输入输出拟合效果 2.偏差:模型偏差表现为存在预测值高于实际计算值的现象。原因在于数据时间跨度较大,期间经历奥运、世博等重大活动影响到
14、股市和基金市场的活动,所有经济主体、金融市场都受到了不同程度的冲击,间接带动先前划在边界外的货币政策、财政政策、际贸易收支等因素的变动,影响了模型拟合度。另外边界外的基金持股集中度、居民价格消费指数、银行利率等弱相关因素的积累和相互作用都会带来拟合的偏差。关于单支基金,基金仓位在不同投资风格中也有相对差别,造成预测的偏差大于其他基金公司的原因,是华夏基金公司总体基金状况都处于市场风口浪尖的位置,这一带头特性导致预测的不可控性增强。 五、结论 本文将传统的基金仓位测算理念及影响因素同 BP 神经网络方法相结合,选择基于数据挖掘的 BP 神经网络作为基金仓位预测模型建立的基本方法,通过数据挖掘技术
15、找出相关因素集,建立神经网络,相对于线性模型,提高了预测的准确性,同时对结果的拟合与偏差都能够获得合理的解释。本研究使信息技术更好的应用于基金投资风格研究,实现对基金仓位的科学预测,同时对于神经网络的预测应用也做出了新的探索。 参考文献 1王敏.基于神经网络的基金净值预测研究J.天津大学学报,2008(5). 2肖国荣.BP 神经网络在基金价格预测中的应用研究J.计算机仿真,2011(3). 3李学峰,徐华,李荣霞.基金投资风格一致性及其对基金绩效的影响J.财贸研究,2010(2). 4董铁牛,杨乃定,邵予工.中国开放式基金投资风格分析J.管理评论,2008(7). 5J.Clay Singleton 编.贾维国,张晓林译.基金组合投资管理M.中国人民大学出版社,2007(10):14-28. 6Sharpe,W.F.Asset Allocation.Management style and performance measurement.Journal of Portfolio Management,1992,18(2):7-19.