大数跨境
0
0

回测不是研究工具!专访Marcos López de Prado

回测不是研究工具!专访Marcos López de Prado 量化投资与机器学习
2025-07-07
10
导读:从因子投资到因果推断,ADIA量化掌门人揭秘Alpha流水线革命!
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、金融科技、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业40W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。

The Journal of Portfolio Management · Portfolio Manager Perspectives 2025

JPM近期采访了Marcos López de Prado,QIML整理核心观点,供读者参考。

微观阿尔法:未被充分开发的富矿

Marcos提出“微观阿尔法(microscopic alpha)”概念,指需通过机器学习、另类数据等先进手段识别的细微市场异常,如利用卫星图像进行零售业绩即时预测。与传统因子投资等“宏观阿尔法”不同,微观阿尔法因技术门槛高,形成天然竞争壁垒。
他以黄金开采类比:宏观金矿已近枯竭,现代开采转向每吨含金量仅1–4克的微观矿藏。技术进步不断降低开采门槛,使微观黄金产量持续增长——过去50年全球超50%的黄金由此产出。同理,微观阿尔法虽隐蔽,却极为丰富且潜力巨大。

构建“阿尔法装配线”实现系统化挖掘

在《金融机器学习进阶》中,Marcos提出“阿尔法装配线”模型,解决量化研究三大痛点:
  • 缺乏从非结构化数据提取阿尔法的专业架构;
  • 金融信噪比低,易产生伪模式;
  • 策略生命周期短,人才易流失。
该模型借鉴科研团队协作模式,将复杂问题拆解为专业化子任务,由跨学科团队协同完成。研究人员专注特定领域(如因果发现、结构突变检测),提升效率与深度,避免“通才式”研究带来的能力稀释。此范式已被多家大型资管机构采纳。

金融机器学习的独特性与挑战

Marcos强调,金融机器学习不能简单套用其他领域算法。标准机器学习假设数据平稳、样本独立,而金融市场具有以下特征:
  • 非独立同分布数据;
  • 结构性突变频繁;
  • 信噪比极低;
  • 模型行为反身性影响市场(如新因子发现削弱其有效性)。
因此,金融机器学习应作为独立研究领域,发展专用算法,如分层风险平价(HRP)、组合清除交叉验证(CPCV)、调整夏普比率(DSR)等,以应对回测过拟合、优化不稳定等问题。

警惕“黑箱模型”风险

过度依赖参数庞大的黑箱模型存在严重隐患:
  • 难以区分信号与噪声;
  • 缺乏透明性,无法判断失效机制;
  • 违背受托责任要求的审慎原则。
相比之下,基于因果理论的模型更具优势:可证伪、可监控机制变化、支持反事实推理,并能准确归因风险收益来源,提升投资效率。

控制过拟合:训练集与测试集双重应对

训练集过拟合应对策略

  • 使用交叉验证、蒙特卡洛模拟评估泛化误差;
  • 采用正则化或早停法限制模型复杂度;
  • 集成学习降低预测方差。

测试集过拟合应对方法

  • 记录所有测试次数,使用DSR校正显著性;
  • 采用CPCV生成多个独立测试集;
  • 利用合成数据进行多实现验证。
建议三者结合使用,最大限度降低伪阳性风险。

回测的定位:工具而非研究方法

Marcos指出:“回测不是研究工具。” 因其无法揭示异常背后的因果机制,也无法判断其可持续性。虚假策略定理证明:只要尝试足够多次,即使真实绩效为零,也能构造出高夏普比率的回测结果。
真正的研究应基于因果理论,使用特征重要性分析、因果发现等工具理解“X如何通过M导致Y”。回测仅用于估算策略收益,前提是异常持续存在。

量化研究的科学性与未来方向

当前金融研究普遍停留在“现象学阶段”,仅观察相关性,未建立可证伪的因果机制,因此多数成果不具备科学严谨性。
两大统计学突破有望推动变革:
  1. 控制多重检验偏差的强效统计方法;
  2. 分离模型识别与参数估计的技术。
尽管传统计量经济学尚未广泛采纳,但投资者对过拟合和黑箱模型日益警惕。随着因果推断等方法普及,以及诺贝尔经济学奖对自然实验的认可,金融研究正迈向更高科学标准。Marcos认为,这是量化研究的黄金时代。
【声明】内容源于网络
0
0
量化投资与机器学习
1234
内容 1206
粉丝 0
量化投资与机器学习 1234
总阅读4.6k
粉丝0
内容1.2k