一、引言在上篇报告中,我们讨论了短期时序预测的方法,优化后的预测模型在短 期预测中取得较好的拟合效果。然而,在现实生活中,短期价格预测对策略帮 助有限,需得对未来价格进行长周期预测才能更充分地对行情进行判断。在上 篇报告中介绍的 RNN 系列网络使用的是递归结构,因此只能进行单向依次计算,限制了模型的并行能力。同时,RNN 系列网络存在长期依赖问题,随着时间推移, RNN 会忘记较长时间之前的信息,从而造成梯度消失和梯度爆炸现象。因此, RNN 等网络只能进行短期预测。近几年越来越多的学者尝试将 Transformer 运用 在长序列预测中,Transformer 自 2017 年被提出后在 NLP 和 CV 领域取得巨大的 成功,是第一个完全依赖自注意力机制来捕捉输入与输出信息关系的传导模型。自注意力机制保留该时刻信息与先前所有时刻信息的直接连接,能够缓解梯度 消失和梯度爆炸的问题,允许信息在更长的序列上传播。同时,Transformer 不 是类似 RNN 的顺序结构使用,具有更好的并行性,符合现有的 GPU 框架。然而, Transformer 存在三大挑战: 二