
A股市场信噪比极低,传统深度学习模型极易对短期波动过拟合。本文引入离散小波变换(DWT),将收益序列解耦为高频突发冲击和低频长期趋势,再结合图神经网络与多任务学习。在严格扣除千分之二双边交易成本后,Stockformer 在震荡市与单边市中均显著优于 LightGBM、ALSTM 和纯 Transformer。
【论文信息卡片】
Title: Stockformer: A Price-Volume Factor Stock Selection Model Based on Wavelet Transform and Multi-Task Self-Attention Networks
Authors: Bohan Ma, Yushan Xue, Yuan Lu, Jing Chen (中央财经大学)
Source: Expert Systems With Applications
Code: 已开源 (提供基于微软 Qlib 框架的 Python 完整代码)
🎯 模型/特征解耦创新:破除了将收益率直接塞进 Transformer 的暴力做法。利用离散小波变换(DWT)将收益率切分为高频分量与低频分量,高频走空洞因果卷积捕捉突发事件,低频走时间注意力捕捉长记忆,从物理意义上提升特征纯度。
📊 数据与回测严谨性:基于沪深300(CSI 300)成分股 2018-2024 年日频数据,采用滚动窗口划分训练、验证和测试集,输入特征为经典 Alpha360 量价因子库,并在策略回测中扣除双边千分之二交易成本。
💰 多维交叉验证超额:Rank IC 达到 0.0344,方向预测准确率达 57.46%。在 TopK-Dropout 每日轮动 Top5 多头策略下,模型在 2023 年横盘震荡市中依然斩获 44.48% 的年化绝对收益。
在量化多因子领域,传统树模型(如 XGBoost、LightGBM)虽然善于处理非线性截面,但对时序依赖(Temporal Dependency)的刻画较弱;直接使用 LSTM 或标准 Transformer,在面对 A股这种高波动、高噪音市场时,模型又容易被短期波动牵着走,学不到真正可迁移的 Alpha。
此外,单票时间序列模型往往忽略股票间的截面溢出效应(Spatial Correlations)。作者指出,要想在 A股中稳定选股,模型必须同时具备三种能力:过滤噪音并提取主升浪、感知板块联动,以及通过多任务学习降低单一预测目标带来的过拟合。

本文的 Stockformer 架构,是金融工程与信号处理、图网络和注意力机制融合的一次典型尝试:
数据构造:特征输入包含 360 个经过极端值处理、标准化和行业市值中性化的 Alpha360 量价因子,并叠加历史收益率序列;标签同时覆盖 T+1 日真实收益率和 T+1 日涨跌方向。
核心架构(三段式提纯):
解耦流层(Decoupling Flow Layer):先对收益率序列进行离散小波变换(DWT),拆分为低频长期趋势和高频短期波动,让模型在进入注意力网络前先完成频域降噪。
双频时空编码器(Spatiotemporal Encoder):低频数据送入自注意力机制捕捉长逻辑,高频数据送入空洞因果卷积捕捉局部异动,同时利用 Struc2Vec 构建股票关联图谱,并用 GAT 提取截面联动特征。
多任务解码器(Multi-Supervision):通过多任务学习让模型同时预测涨跌幅和涨跌方向,相当于为神经网络增加正则化约束,降低单一收益率回归目标导致的过拟合风险。
Stockformer 架构图:小波解耦 + 双频时空编码 + 多任务输出(此处保留母版图片位,后续可替换真实图表)
作者在 Qlib 框架下进行了详尽回测,多个维度的结果都指向同一个结论:频域解耦显著提升了深度模型在噪音市场中的稳定性。
预测指标全面碾压:
样本外测试中,Stockformer 的 Rank IC 达到 0.0344,Rank ICIR 达到 0.2669,方向准确率为 57.46%,整体超越 LightGBM、ALSTM 以及纯 Transformer 模型。
交易摩擦测试:
在实盘策略回测中,作者硬性扣除了双边千分之二(0.2%)的交易成本。考虑到日频调仓和 TopK-Dropout 的换仓机制,这是一组相对严苛的摩擦测试设定。
极端行情下的鲁棒性:
在 2020-2021 年单边上涨市中,模型斩获 239.7% 的年化收益,最大回撤仅 3.07%;在 2023 下半年横盘震荡市中,当多个基准模型录得负收益时,Stockformer 仍实现 44.48% 的正向年化,夏普比率高达 2.71。
模型预测性能对比与震荡市净值曲线(此处保留母版图片位,后续可替换真实图表)
🔥 落地价值评估(特征工程的降维打击):
这篇文章最大的实盘启发是:不要把脏数据直接喂给神经网络。通过小波变换(Wavelet Transform)先对收益率和因子做频域滤波,是一种极具性价比的先验知识注入。对于国内量化团队做高频量价因子,尤其是分钟级数据去噪,这套“先过滤、再建模”的路径很有借鉴价值。
⚠️ 避坑与局限性(策略容量与多空检验):
极端的持仓集中度:本文回测采用 TopK-Dropout (K=5) 策略,即每天从沪深300中只挑出打分最高的 5 只股票重仓。这在实盘中资金容量较小,也会承受较大的个股特质风险。高年化收益背后,必须同步关注容量和组合分散度。
多空与交易执行检验不足:作为一篇因子选股论文,仅展示纯多头且只有 5 只股票的净值并不充分。更理想的验证还应包括分组单调性、多空对冲组合,以及 TWAP/VWAP 执行后的滑点与市场冲击评估。
如果你正苦恼于 Transformer 在量价预测上始终跑不过树模型,是时候给模型加一点“信号处理”的先验知识了。小波变换并不神秘,但它提供了一种非常清晰的降噪入口。
本期论文原文 PDF 及基于微软 Qlib 框架的 Python 完整开源代码链接已打包完毕,可以直接 Clone 下来跑 A股数据。
获取方式:关注本公众号,后台回复【AI因子】,即可免费获取完整资料。
文案:Poem
编辑:孑孓乐

