据JFE官网显示,来自武汉大学的李斌、乔治敦大学的Alberto G. Rossi、理海大学的Xuemin (Sterling) Yan、中国人民大学的郑凌凌,合作撰写的论文“Machine learning from a “Universe” of signals: The role of feature engineering”,在国际金融学顶刊《Journal of Financial Economics》上正式发表。

Title: Machine learning from a “Universe” of signals: The role of feature engineering
从“信号宇宙”中进行机器学习:特征工程的作用
李斌
武汉大学
Alberto G. Rossi
乔治敦大学
Xuemin (Sterling) Yan
理海大学
郑凌凌
中国人民大学
We construct real-time machine learning strategies based on a “universe” of fundamental signals. The out-of-sample performance of these strategies is economically meaningful and statistically significant, but considerably weaker than those documented by prior studies that use curated sets of signals as predictors. Strategies based on a simple recursive ranking of each signal’s past performance also yield substantially better out-of-sample performance. We find qualitatively similar results when examining past-return-based signals. Our results underscore the key role of feature engineering and, more broadly, inductive biases in enhancing the economic benefits of machine learning investment strategies.
本文基于一组基本面信号构建了实时的机器学习投资策略。尽管这些策略能够获得经济显著且统计显著的样本外收益,但其表现明显弱于现有文献中使用人工筛选的信号所得到的结果。相较之下,基于各信号历史预测能力进行递归排序的简单策略样本外表现更为优越。本研究在基于历史收益的信号上也观察到类似的规律。研究结果凸显了特征工程及更广义的归纳偏倚(inductive biases)在提升机器学习投资策略经济价值中的核心作用。
现有文献充分证明了机器学习(ML)模型在预测股票横截面收益和提升投资绩效方面优于传统模型,通常基于ML预测构建多空策略并展示其高盈利性。然而,这些研究普遍使用已发表的异象变量作为预测因子,隐含假设投资者在模型训练期间即可实时获知这些信号。这种方法虽适用于衡量风险溢价或估计随机贴现因子,但忽略了实时投资者能否从大量信号中筛选出有效信号的关键问题,导致所记载的ML经济收益可能被高估。
为解决上述问题,本文基于投资者可实时获取的超过18,000个基本面信号构成的“全集”构建ML策略。核心ML方法是提升回归树(BRT),因其在金融预测中表现优异、能高效处理高维数据(适用于本文超大规模预测集)且对缺失值和异常值稳健;同时使用神经网络(NN) 作为补充方法以确保结论稳健。样本期划分为训练期、交叉验证期和样本外测试期,并基于预测收益构建多空组合(买入预测收益最高股票,做空预测收益最低股票)。此外,设计了一个递归排序(RR)策略作为对比:每年根据各信号过去多空组合alpha的t统计量排序,构建做多最高十分位信号/做空最低十分位信号的等权组合,可视为一种利用历史单变量表现筛选预测因子的简易ML策略。
研究结果表明,基于基本面信号全集的提升回归树(BRT)等权多空组合月均收益0.95%,价值加权组合月均收益0.40%,显著低于使用筛选信号的文献结果。神经网络(NN)策略表现同样较弱。在相同筛选信号集上复现实验时,本文BRT/NN模型达到与文献相当的高收益,证明性能差距源于输入预测因子的选择(特征工程)而非ML实现本身。基于同一基本面信号全集的递归排序(RR)策略显著优于机器学习策略(FS-ML),表明对预测因子施加适当结构或“归纳偏置”对ML性能至关重要。基于过去119/120个月收益率构建的ML策略产生经济显著收益,但仍弱于使用筛选信号的文献策略,再次印证特征工程的关键作用。
论文主要贡献在于,揭示了当使用投资者可实时获取的预测因子全集(而非事后筛选的已发表信号)时,ML策略的经济收益远低于现有文献报道,更贴近实际。通过系统对比全集信号与筛选信号、以及ML策略与简易RR策略的性能差异,首次实证证明预测因子的选择与结构化(特征工程及更广义的归纳偏置) 是决定ML策略表现优劣的首要因素,而非算法复杂性。结论在基本面与历史收益率信号、BRT与NN模型、等权与价值加权组合中均稳健成立。证实了实时投资者可通过特征工程(如利用专家知识筛选信号或设计结构化方法)显著提升ML策略收益,为克服金融数据噪声大、样本少等挑战提供方向。
来源:学说平台



