量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、金融科技、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业40W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。
Marcos López de Prado写给QIML的祝福寄语
问题一:构建可靠机器学习信号的关键步骤
投资是一项高度竞争的人类活动。随着越来越多市场参与者追逐相似机会,信号往往在变得明显前就被识别,导致信号与噪声比值持续下降,多数机会趋于“微观化”。
我几年前提出“微观阿尔法(microscopic alpha)”这一概念,描述当前投资新范式——从独立小团队转向专业化协作流水线。正如现代黄金开采依赖复杂工业流程提取肉眼不可见的微粒,今天的阿尔法也需系统化、分工明确的研究流程来发现与提炼。
建议从业者明确自身在“阿尔法流水线”中最擅长的环节,并深耕具体问题。完整方法论可参考《Advances in Financial Machine Learning》第一章。
问题二:控制回测过拟合的实用方法
机器学习领域对“过拟合”存在误解。实际上有两种主要类型:训练集过拟合和测试集过拟合。
训练集过拟合指模型将噪声误认为信号,可通过交叉验证缓解;而测试集过拟合发生在多次使用测试集进行策略筛选时,例如进行N次回测后选择最优结果,随N增加,选中伪信号概率上升。
2014年,我和同事在《The Journal of Portfolio Management》发表论文《The Deflated Sharpe Ratio》,专门解决测试集过拟合问题,提供统计修正方法。
问题三:因子研究中的因果识别作用
交叉验证与夏普比率修正只是起点,远不足以应对全部建模风险。另一个常被忽视的风险是“因果风险(causal risk)”。
相关性有助于预测,但投资本质是组合构建。由于信噪比低,即使算法能估计期望收益,其波动仍巨大,投资者不会全仓押注最高收益资产。
近期研究中,我与Vincent Zoonekynd、Alex Lipton指出,资产配置必须基于因果因子建模。这才是投资研究的新前沿——利用机器学习识别金融变量背后的隐藏因果结构。
若缺乏此能力,策略可能无意中暴露于无风险补偿甚至负收益的风险敞口。更多资源可访问www.QuantResearch.org。
问题四:构建稳健的因子筛选体系
黑箱式统计套利是一场危险游戏,如同开车只看后视镜——急转弯时极易撞车。
经济学理论表明,每个统计套利机会都是某种风险的补偿。黑箱策略短期盈利,往往因其暴露于未来可能爆发的重大亏损风险。否则,套利就成了“免费午餐”。
我的建议是:务必理解算法所承担的风险及其对应的风险溢价。若无法解释机制,则不是投资,而是赌博。
系统化投资的核心在于归因——识别哪些风险因子带来风险溢价。相关定量方法详见我们关于因果因子投资的研究文章。
问题五:大语言模型在量化中的应用与偏差防范
LLMs已成为不可或缺工具,但其价值并非许多人想象的“预测价格”。即便能预测,也属于赌博范畴,因投资核心在于因果归因——判断风险溢价由何种风险驱动。
LLMs的优势在于特定任务:数据生成与结构化,如自动打标签、文本转数值特征。然而需谨慎使用,因其训练数据非“实点数据集(point-in-time, PIT)”,可能导致用当前信息解释历史事件,引入前视偏差。
例如,模型可能将过去某股票错误标记为“IT”而非“金融”,从而在回测中泄露未来信息。解决方案是训练基于PIT数据集的LLM——即在每一个历史时点仅使用当时可用数据进行训练与推断,技术难度较高但至关重要。
回顾过去,量化投资曾被视为“玩票”而不被主流认可。如今我们能在投资界立足,源于长期努力。每一位量化研究者都应铭记责任:我们是科学家,不是赌徒。使命是提升市场效率,实现资本最优配置,这对社会具有深远正面影响。
一旦忘记这一社会责任,整个量化群体都将面临危机。正因如此,现在正是成为量化研究者的黄金时代!
ADIA量化研发团队诚邀优秀人才加入
https://jobs.adia.ae/_/j/F18DA76604/ https://jobs.adia.ae/_/j/4CFA7E24F7/

