机器学习选股,组合优化权重——核心总结
量化投资中,构建高质量组合需要明确分工:
机器学习选股:利用因子、历史数据和模型(如 XGBoost)预测股票未来表现,从全市场中筛选出最值得投资的股票池。
组合优化权重:在已确定的股票池上,根据预期收益、风险和相关性,通过最小方差、最大夏普或风险平价等方法计算每只股票的最优权重。
核心思想:
先选股票,后配权重。
选股决定收益上限,优化决定风险下限。两者结合,形成科学、稳健的量化投资组合。
在现代量化投资中,策略通常可以拆分为两个核心环节:
选股(Stock Selection):决定买哪些股票
配权重(Portfolio Allocation / Optimization):决定每只股票买多少
这两个环节分别对应 Alpha 模型 和 风险/优化模型,并构成了量化投资策略的核心架构。
1️⃣ 机器学习:用于选股的利器
✔ 核心作用
机器学习模型擅长从大量历史数据中挖掘模式,预测股票未来的表现。
典型模型包括:
XGBoost / LightGBM / CatBoost:梯度提升树,适合回归或分类预测未来收益或上涨概率
神经网络(MLP, LSTM, Transformer):处理时间序列和多维特征
随机森林、SVM:传统机器学习模型,用于因子组合与排序
✔ 输出结果
每只股票的预测收益
上涨概率
排名或评分
✔ 形成股票池
根据模型预测结果,可以:
挑选排名前 N% 的股票
挑选预测收益为正的股票
控制行业或风格暴露进行筛选
这一步就是选股模块的核心任务:告诉你买谁,而不涉及买多少。
2️⃣ 组合优化:为选股确定权重
选股完成后,你会得到一个固定的股票池,例如:
此时组合优化模型开始工作:
✔ 核心作用
分配资金,使组合风险可控
最大化风险调整收益
符合约束条件(行业、风格、杠杆、单股权重等)
✔ 常见方法
均值-方差优化(Mean-Variance):在预期收益和波动率之间寻找最佳平衡
最小方差组合(Minimum Variance):降低整体波动
最大化夏普比率(Max Sharpe):提高风险调整收益
风险平价(Risk Parity):均衡各类风险贡献
最小 CVaR / 极端风险优化:控制尾部风险
✔ 输出结果
每只股票的权重向量
w = ( w 1 , w 2 , . . . , w N ) 满足总权重 = 1 且符合约束条件
组合优化模块的作用是告诉你买多少,而不负责挑股票。
3️⃣ 为什么要分开?
✔ 模块化设计
机器学习专注预测与发现 alpha
优化模块专注风险控制和权重分配
✔ 风险可控
ML 模型可能会过拟合或输出极端信号
组合优化可以平滑权重,控制行业、风格集中度和波动
✔ 可替换性强
更换 ML 模型 → 股票池变化
更换优化方法 → 权重策略变化
两者可以独立迭代,提高策略稳定性和可维护性
4️⃣ 标准量化流程示意
数据准备
因子数据、技术指标、财务数据
机器学习建模
模型训练 → 输出股票预测分数
股票池选取
排名前 N 或预测收益正的股票
组合优化
计算协方差矩阵、风险指标
求解最优权重
交易执行
根据权重进行买入/卖出
Alpha(买谁)和 Risk/Optimizer(买多少)完全分开,但相辅相成。
5️⃣ 总结
机器学习选股:解决“谁值得买”,提供 Alpha 信号
组合优化权重:解决“买多少合适”,提供风险管理和资金分配
分而治之,模块化设计:保证策略稳定性、可控性和可扩展性
这种结构不仅是现代量化基金的标配,也是量化交易策略工程化的核心逻辑。
✅ 机器学习模型主要用来“选股票”(产生 Alpha),而组合优化主要用来“配权重”(控制风险与结构)。
下面我把这个逻辑讲清楚,让你彻底拿捏。
🎯 1. 为什么机器学习模型“更适合选股”?
因为 ML 模型的核心能力,是:
✔ 从海量特征中找规律
例如从因子、财务数据、技术指标等中提取信号。
✔ 做预测(回归或分类)
预测未来收益
预测上涨概率
预测排名(Learning to Rank)
✔ 输出一个“排序”
比如:
XGBoost 给每只股票一个分数
LSTM 输出未来收益的预测
GBDT 输出上涨概率
随机森林输出 stock ranking
最终你得到一个有序列表:
这就等同于:
“哪些股票值得买?”
也就是“选股模型(Alpha Model)”的角色。
🎯 2. 为什么组合优化“更适合配权重”?
优化模型与机器学习不同,它们的目标不是预测,而是:
✔ 处理风险
协方差矩阵
行业暴露
风格暴露
最大回撤
波动率
✔ 找一组满足约束的最优权重
例如:
最小方差 → 找波动率最小的组合
最大夏普比率 → 找风险收益比最高的组合
风险平价 → 每个风险来源贡献相同
最小 CVaR → 控制尾部风险
均值–方差 → 平衡收益与风险
这些优化问题完全依赖矩阵,而不是预测能力。
也就是说,优化模型关注的是:
“怎么买才安全?”
“怎么买才稳定?”
它不会告诉你:
“哪只股票未来会涨?”
🎯 3. 为什么这两者必须分开?(核心原因)
这是量化系统最重要的思想之一:
预测与风险管理不是同一件事
机器学习模型擅长:
找信号
找规律
做预测
提供 alpha
但它不擅长:
控制行业暴露
控制集中度
控制波动率与回撤
做矩阵优化
这些都属于风险管理(Risk Model)的范畴。
因此量化体系中的经典结构永远是:
Alpha → Risk → Optimizer → Portfolio
🎯 4. 是否“大部分”机器学习都是用来选股的?
是的,绝大多数 ML 模型都是用来选股的。
包括但不限于:
XGBoost
LightGBM
CatBoost
Random Forest
Gradient Boosting
SVM
神经网络(MLP、LSTM、Transformer)
它们的输出一般是:
未来收益预测
上涨概率预测
股票排名
然后根据这些预测“挑股票”。
🎯 5. 那有没有机器学习来“配权重”的场景?
有,但少,而且不稳定。
例如:
强化学习(RL)直接输出权重
深度强化学习做连续动作分配
神经网络直接预测最佳权重向量
但这些方法存在:
过拟合严重
风险不可控
回撤不稳定
不符合监管要求
不符合机构风控体系
所以大型机构(如 AQR、BlackRock、Two Sigma、Citadel)基本不会让 ML 负责权重分配。
权重必须可解释、可控、可约束:
行业暴露不能超过阈值
单股票权重不能超过 10%
风险不超过某水平
杠杆不超过限制
这些都是优化模型擅长的。
🎯 最终结论(非常重要)
✔ 机器学习模型 → 决定买谁(选股)
✔ 组合优化模型 → 决定买多少(定权)
这是量化投资中最经典、最好用、最健壮的架构。
理解了这一点,你就理解了:
为什么 ML 是 alpha 模型
为什么优化是 risk 模型
为什么量化策略要模块化
为什么选股与定权要分离
为什么大部分论文、基金、机构都是这样的结构
在量化投资中,有两件事情是每个策略都必须面对的核心问题:
买谁?(选股)
买多少?(权重分配)
现代量化策略往往将这两步拆分开来:机器学习用于选股,组合优化用于权重配置。这种分工不仅清晰,也保证策略既有 alpha,又能控制风险。
1️⃣ 机器学习:给出买入信号
机器学习模型的优势在于从海量数据中挖掘规律,帮助投资者判断哪些股票未来可能表现较好。
常用方法包括:
XGBoost / LightGBM / CatBoost:适合因子回归或分类,预测未来收益或上涨概率
神经网络(LSTM, Transformer):捕捉时间序列模式
随机森林、支持向量机:传统因子组合或特征排序
输出结果:
每只股票的预测收益或上涨概率
排名或打分
股票池(候选股票列表)
机器学习模型的核心任务是选出值得投资的股票,但不涉及每只股票的资金分配。
2️⃣ 组合优化:确定资金分配
得到股票池后,下一步就是组合优化,也就是“买多少”。
组合优化的核心目标是:
控制风险:波动率、行业暴露、风格暴露
平衡收益与风险:最大化夏普比率或风险调整收益
满足约束:单股权重、行业权重、杠杆限制等
常见方法:
最小方差组合(Minimum Variance):降低整体组合波动
均值–方差优化(Mean–Variance):在收益与风险之间寻找平衡
风险平价(Risk Parity):平衡各类风险贡献
极端风险控制(Min CVaR):降低尾部风险
组合优化输出的结果是每只股票的权重向量,告诉投资者资金如何分配。
3️⃣ 为什么要分开?
将选股和权重优化分开有几个好处:
模块化设计
选股模型产生 Alpha 信号
优化模型负责资金分配
两者可独立迭代,互不干扰
风险可控
ML 模型可能过度集中某些股票或行业
优化模型可以平滑权重,限制单股、单行业暴露
可替换性强
换模型 → 股票池变化
换优化方法 → 权重策略变化
上下游模块解耦,提高策略稳定性
4️⃣ 标准流程示意
收集数据:因子、财务指标、价格数据
机器学习建模:训练模型 → 输出预测分数
选股:根据模型预测挑选前 N 只股票
组合优化:计算协方差矩阵,求解最优权重
交易执行:按权重买入/卖出,形成组合
5️⃣ 总结
机器学习选股:解决“买谁”,提供 Alpha 信号
组合优化权重:解决“买多少”,提供风险控制和资金分配
选股与权重分离:模块化、可控、可替换,提高策略稳定性
在现代量化投资中,这一分工是几乎所有机构和基金采用的标准策略框架。
在现代量化投资中,投资决策可以拆解为两个核心问题:
股票选择(Who to Buy)
资金分配(How Much to Buy)
简单来说,机器学习负责告诉你买谁,组合优化负责告诉你买多少。这种分工不仅让策略更高效,也让投资风险更可控。
1️⃣ 机器学习:洞察市场信号
机器学习模型的核心优势在于从大量历史数据中发现潜在规律,并预测未来股票表现。
常用方法包括:
XGBoost / LightGBM / CatBoost:梯度提升树,擅长处理非线性关系和高维因子数据
神经网络(LSTM / Transformer):捕捉时间序列模式与动态因子
随机森林 / 支持向量机:稳健处理特征组合与排序问题
输出结果
每只股票的预测收益或上涨概率
股票排名
形成股票池(候选股票列表)
机器学习模型的主要任务是选股,不负责权重分配。
2️⃣ 组合优化:科学分配资金
当股票池确定后,组合优化模块开始发挥作用。它的目标是:
控制风险:波动率、行业和风格暴露
优化回报:最大化夏普比率或风险调整收益
满足约束:如单股权重上限、行业权重限制、杠杆约束
常见方法
最小方差组合(Minimum Variance)
均值-方差优化(Mean–Variance)
风险平价(Risk Parity)
尾部风险优化(Min CVaR)
输出结果
每只股票的权重向量
w = (w_1, w_2, ..., w_N)w = ( w 1 , w 2 , . . . , w N ) 组合风险收益指标
组合优化回答的是买多少最合适,保证组合风险可控。
3️⃣ 为什么要分开?
模块化
机器学习模型专注预测
优化模块专注风险管理
两者独立更新、互不干扰
风险可控
机器学习模型可能集中某些股票或行业
优化模块可以平衡风险、控制集中度
可替换性
更换 ML 模型 → 股票池变化
更换优化方法 → 权重策略变化
两者解耦,提高策略灵活性和稳定性
4️⃣ 完整流程示意
数据准备:因子、技术指标、财务信息
机器学习建模:训练模型 → 得到股票评分
选股:筛选股票池
组合优化:计算协方差矩阵 → 求解最优权重
交易执行:根据权重构建投资组合
5️⃣ 总结
机器学习选股 → 决定“谁值得买”,提供 alpha 信号
组合优化权重 → 决定“买多少”,提供风险控制与资金分配
分而治之 → 模块化、可控、可替换,提高策略稳定性
在现代量化投资中,这种“选股 + 权重优化”模式已成为标准实践,也是实现稳健收益与风险管理的关键。
在量化投资中,决策过程可以拆解为两个核心问题:
买谁?(选股)
买多少?(权重分配)
现代量化策略几乎都是按照这个逻辑来设计:机器学习用于选股,组合优化用于权重分配。
1️⃣ 机器学习选股:挖掘潜在 alpha
机器学习模型能够从海量数据中识别模式,预测股票未来表现。
常用方法
XGBoost / LightGBM / CatBoost:适合回归或分类预测,输出股票收益或上涨概率
神经网络(LSTM / Transformer):处理时间序列和多维特征
随机森林 / 支持向量机:处理因子组合,进行排序
输出结果
每只股票的预测收益或上涨概率
排名或评分
股票池(候选股票列表)
ML 模型的核心任务是告诉你买哪些股票,而不涉及资金分配。
2️⃣ 组合优化权重:科学配置资金
股票池确定后,组合优化模块开始工作,它的任务是:
控制风险:波动率、行业/风格暴露
优化组合收益:最大化夏普比率或风险调整收益
满足约束:单股权重、行业权重、杠杆等
常见方法
最小方差组合(Minimum Variance)
均值–方差优化(Mean–Variance)
风险平价(Risk Parity)
极端风险控制(Min CVaR)
输出结果
每只股票的权重向量
组合整体风险收益指标
优化模块回答的是买多少最合理,保证组合稳健。
3️⃣ 为什么要分开?
模块化
ML 模型负责预测
优化模块负责权重分配
两者互不干扰,可独立迭代
风险可控
机器学习模型可能集中某些股票或行业
优化模块可以平衡风险,避免集中度过高
灵活可替换
换 ML 模型 → 股票池变化
换优化方法 → 权重策略变化
解耦设计提高策略稳健性和可维护性
4️⃣ 标准量化流程
数据准备:因子、技术指标、财务信息
机器学习建模:训练模型,输出股票评分
选股:挑选股票池
组合优化:计算协方差矩阵,求解最优权重
交易执行:按权重构建组合
5️⃣ 总结
机器学习选股 → 决定“买谁”,提供 alpha 信号
组合优化权重 → 决定“买多少”,控制风险、优化资金分配
分工明确,模块化设计 → 提高策略稳定性、可替换性和可控性
这是现代量化投资中几乎所有机构和基金采用的标准策略框架。
在过去的几十年里,量化投资从简单的因子模型逐渐演变成高度自动化、数据驱动的智能系统。如今,一个成熟的量化策略往往由两个核心模块共同驱动:
机器学习选股:给出未来收益的预测信号(Alpha)
组合优化权重:将资金分配得更科学、更稳健(Risk Control & Allocation)
两者协同构成了现代量化投资的“发动机与变速箱”。
本文将从理念、逻辑、方法、流程、优势等多个维度,全面介绍为何 “机器学习选股,组合优化权重” 成为量化界最核心、最高效、最可扩展的策略框架。
一、为什么要把“选股”和“权重”分开?
很多初学者会以为:
“机器学习模型预测未来收益,那直接买排名最高的股票就好了。”
实际上,机构投资完全不是这样操作的。
原因很简单:预测趋势 ≠ 管理风险。
机器学习最擅长的是:
挖掘数据模式
预测未来走势
给每只股票打分、排序、评分
但机器学习 并不擅长:
控制行业暴露
控制组合整体波动率
平衡收益和风险
约束组合的权重上下限
避免过度集中或黑名单风险
所以在真正的投资系统里:
✨ 机器学习负责“买谁”
✨ 组合优化负责“买多少”
两者组合在一起,才能形成既有“智慧”又有“稳健性”的投资策略。
二、机器学习选股:从因子到预测信号
机器学习的目标是:
从复杂市场数据中找到可持续的“预测能力”,从而挑选出未来收益更高的股票。
常用模型包括:
XGBoost / LightGBM / CatBoost
随机森林 / 支持向量机(SVM)
LSTM / Transformer(处理时间序列)
线性模型(Lasso / ElasticNet)
AutoML 系列模型
模型可以输出什么?
机器学习模型可以输出三种核心结果:
未来收益预测值(回归模型)
某股票未来 5 天收益率的预测
上涨概率(分类模型)
未来上涨的概率
排序分值(ranking)
用于排名、分桶、筛选
得到上述信号后,策略可以进行:
选出排名最高的 N 只股票
按预测收益排序决定股票池
剔除概率太低或不合规股票
也就是说:
👉 机器学习解决的是“谁更值得被买”。
三、组合优化:在风险中平衡收益
当股票池选定后,第二个问题出现了:
如何把资金合理地分配在这些股票上?
如果全部买等权?
风险可能集中在波动大的股票或行业。
如果全部买 ML 模型分高的股票?
可能全部集中于某些行业(例如科技股),风险过高。
于是我们需要一种方法,把资金分配得更科学:
这就是“组合优化”(Portfolio Optimization)
常见的优化目标包括:
1⃣ 最小方差(Minimum Variance)
只追求降低波动率
资金更多分配给波动小、相关性低的股票。
适合低风险组合。
2⃣ 均值–方差(Markowitz)
最经典:
最大化(收益 - 风险 * λ)
其中 λ 是风险厌恶度。
适合追求综合收益风险比的人群。
3⃣ 最大夏普比率(Max Sharpe)
最常用,也最实用:
最大化:平均收益 / 波动率
这是一种“高收益、低风险”的最优权重。
4⃣ 风险平价(Risk Parity)
让每个股票、每个行业的“风险贡献”相等
使组合在风险层面均衡。
很多大型对冲基金采用这种模型。
5⃣ CVaR(最小化尾部风险)
控制极端情况下可能的最坏损失。
适合不希望回撤过大的机构。
四、为什么“机器学习 + 组合优化”是黄金搭档?
**1. 机器学习提供 Alpha
组合优化提供 Risk Control**
这是现代量化投资的两大核心支柱。
ML 能告诉你哪些股票会涨
但不能告诉你仓位怎么配才最稳健。
2. 两者解耦、模块化设计
想换模型?换 XGBoost → LSTM → Transformer 都可以
想换优化方法?换最小方差 → 最大夏普比率也可以
两者互不影响。
这就是大型对冲基金策略通用的“模块化框架”。
3. 提高策略稳定性
机器学习模型的预测可能波动较大:
今天看好金融
明天看好科技
后天又换了消费…
但组合优化可以让权重变化更平稳,不会出现暴力调仓。
4. 避免风险集中
机器学习模型可能把 10 只最好的股票都集中在一个行业里,例如:
10 只都是半导体
10 只都是新能源
10 只是互联网平台
组合优化可以加入约束:
单行业不超过 30%
单股票不超过 10%
波动率低于某个阈值
这才是机构级策略该有的稳健性。
五、完整策略流程示例(机构标准)
以下是真正的机构级流程:
Step 1:数据处理 → 因子工程 → 特征构建
量价因子、技术因子、财务因子、新闻情绪…
Step 2:机器学习模型训练(如 XGBoost)
输出预测收益/上涨概率
Step 3:选择股票池
例如选择预测收益最高的前 100 只股票
Step 4:构建协方差矩阵
计算风险、相关性
Step 5:组合优化
求解最优权重,如最大夏普比率
Step 6:执行调仓、风控、监控
定期更新模型、更新权重、跟踪表现
这是目前全球量化机构普遍使用的流程。
六、总结
“机器学习选股,组合优化权重”这一框架之所以成为行业主流,是因为它:
让机器学习专注于预测与抓取 Alpha
让组合优化专注于风险管理与权重分配
模块拆分、灵活高效
既能提高收益,也能稳定风险
是机构化、工程化量化交易的标准做法
一句话总结:
机器学习让你知道买谁,组合优化让你敢买、敢持有、敢长期稳定地买。
——机器学习选股与组合优化权重的协同逻辑
在现代量化投资体系中,“如何选股”和“如何配置”是两个完全不同但同等重要的问题。一个优秀的策略,必须同时回答这两个问题:
哪些股票未来可能表现更优?
在这些候选股票中,资金应该如何分配?
前者决定收益来源(Alpha),后者决定风险结构(Risk Profile)。
因此,业内逐渐形成了一种高度成熟、稳定、有效的体系:
机器学习负责选股,组合优化负责权重。
本文将从理论、逻辑、目的到实战框架,深入解释为什么这种设计被全球量化机构普遍采用,以及它如何使策略在收益与风险之间取得最佳平衡。
一、选股与配权为何不能混在一起?
许多量化初学者会有这样的疑问:
“机器学习不是可以直接预测收益吗?那为什么不直接用预测值来决定投资权重?”
原因在于:
预测能力不等于风险控制能力。
机器学习模型的核心能力是:
理解高维数据
捕捉非线性关系
从噪声中提炼信号
预测未来的相对收益、概率或风险水平
但它并不擅长:
控制组合波动率
管理行业暴露
限制个股集中度
在预测不精准时降低损失
平衡回测与真实交易环境的差异
金融市场复杂且不断变化,单凭预测可能会导致极度集中、剧烈波动的投资组合。
因此,成熟的策略体系会将任务拆分:
✔ 模型专注预测 → 选股逻辑更强
✔ 优化专注风险 → 权重更稳健持久
这种模块化设计,是金融工程与数据科学融合的最佳方式。
二、机器学习选股:从数据中寻找可持续的优势
机器学习之所以被用于选股,是因为它可以利用大量特征(因子)构建非线性、多维度的预测模型,包括:
价格与成交量因子
行业与财务因子
技术指标
高频特征
新闻情绪等非结构化数据
宏观与主题变量
模型类型多样:
XGBoost/LightGBM:结构稳定、泛化性强,是行业主力模型
随机森林:抗噪声能力好
深度神经网络:用于复杂模式识别
线性模型(Lasso/ElasticNet):解释性强
时序模型(LSTM/Transformer):处理市场动态结构
这些模型的主要输出包括:
未来收益预测值
上涨概率
排序得分
风险标签(如高风险、低风险)
最终目标是构建一个更优的股票池(Stock Universe Selection)。
换句话说:
🧠 机器学习告诉你:这些股票未来更有可能表现好。
三、组合优化权重:让收益与风险达到平衡
当股票池确定后,策略进入第二阶段:
如何分配资金?
资金分配并不是“预测越高、买得越多”这么简单。
真正的机构组合必须满足多重约束:
单只股票的风险不能过高
行业暴露不能过度集中
整体波动率需要控制
杠杆比例需要限制
组合需要具有流动性优势
组合优化正是为此而生。
📌 常见的优化目标包括:
1⃣ 最小方差组合(Min Variance)
只追求降低风险,不追求收益预测。
2⃣ 均值–方差优化(Mean–Variance)
在预测收益与波动率之间寻找最优平衡。
3⃣ 最大夏普比率(Max Sharpe)
收益与风险比最大化,是最常用的机构级优化方法。
4⃣ 风险平价(Risk Parity)
让每个股票的风险贡献一致,组合更加均衡。
5⃣ CVaR 优化
降低极端情况下的潜在损失,适合回撤敏感型策略。
6⃣ 行业暴露约束、流动性约束
使权重分布更贴近真实交易环境。
组合优化的最终输出是:
每只股票的科学权重
组合整体的风险指标
行业/风格的配置结构
总结:
📊 组合优化告诉你:如何“安全而有效地”持有这些股票。
四、智能选股 + 科学配权 = 完整的量化组合体系
一个真正具有竞争力的量化策略,必须满足两个条件:
收益来自有效预测(Alpha)
风险来自可控结构(Risk Control)
机器学习作为“引擎”,提供收益增强;
组合优化作为“稳定器”,提供风险管理。
两者结合:
能从复杂数据中寻找优势
能将优势转化为稳定、可执行的投资组合
能降低模型失误带来的巨大损失
能适应不断变化的市场结构
能避免不必要的高换手、过度集中、黑天鹅冲击
在量化投资的工业化体系中,这是最成熟、最稳定、最高效的框架。
五、完整流程:从信号到权重的工程化路径
以下是机构实盘普遍采用的流程:
① 数据 → 因子工程 → 特征构建
包含清洗、归一化、缺失值补全、打 label。
② 机器学习模型训练
产生每个股票的预测收益或风险等级。
③ 构建股票池
选择预测得分前 N 只股票,并过滤:
流动性不足
风险过高
ST、停牌
行业或市值异常点
④ 计算协方差矩阵
评估风险结构。
⑤ 执行组合优化
根据目标(如最大夏普比率)求解权重。
⑥ 落地交易
按权重建仓,同时监控风险和模型稳定性。
六、总结:未来的量化投资一定是“预测 + 优化”的双轮驱动
在信息爆炸、市场快速变化的时代,依靠单一模型或单一预测手段已经无法构建稳健的策略。
因此,“机器学习选股,组合优化权重”并不是一个概念,而是量化行业的基本逻辑框架:
机器学习 → 捕捉信息,预测未来
组合优化 → 稳定结构,控制风险
两者协同让策略既聪明又稳健,既能抓住机会,又能在风暴中站稳。这也是为什么所有大型量化机构——从 AQR 到 Two Sigma、从 BlackRock 到桥水——都采用类似的结构。
预测带来收益,优化带来安全;两者缺一不可。
在现代量化投资中,投资决策通常可以拆分为两个核心问题:
股票选择(Who to Buy)
资金分配(How Much to Buy)
简单来说:机器学习用来选股,组合优化用来分配权重。
这种分工不仅提高了策略的预测能力,也保证了风险控制的科学性。
一、机器学习选股:寻找未来潜力股
机器学习在量化投资中的核心作用是从海量数据中捕捉有预测能力的信号。
常用方法:
XGBoost / LightGBM / CatBoost:处理非线性关系和高维因子
随机森林 / SVM:适合因子排序和分类
LSTM / Transformer:捕捉时间序列趋势
线性模型(Lasso / ElasticNet):解释性强,便于因子分析
输出结果:
每只股票的预测收益或上涨概率
排序或打分
股票池(候选股票列表)
机器学习模型主要解决“买谁”的问题,但不涉及每只股票的资金分配。
二、组合优化权重:科学配置资金
当股票池确定后,投资者必须回答第二个问题:在这些股票中,如何分配资金?
如果直接等权或按预测值分配:
可能造成单股或单行业过度集中
风险难以量化和控制
波动性可能过高
组合优化的目标是:
控制风险:波动率、行业暴露、风格暴露
优化收益-风险平衡:最大化夏普比率或风险调整收益
满足约束:单股权重、行业权重、杠杆比例
常用方法:
最小方差组合(Min Variance)
均值-方差优化(Mean–Variance)
最大夏普比率(Max Sharpe)
风险平价(Risk Parity)
CVaR 优化(尾部风险控制)
组合优化输出的是每只股票的权重向量,确保组合既有收益潜力,又控制了风险。
三、为什么要分开?
模块化设计
机器学习模块专注预测
优化模块专注权重
两者可以独立迭代,互不干扰
风险可控
机器学习模型可能集中某些行业或股票
优化模块可以平滑权重,避免集中度过高
灵活可替换
更换机器学习模型 → 股票池变化
更换优化方法 → 权重策略变化
上下游解耦,提高策略稳定性
四、标准量化策略流程
数据准备:收集因子、财务指标、技术指标
机器学习建模:训练模型,输出股票预测分数
选股:根据模型选择前 N 名股票
风险评估:计算协方差矩阵、相关性、波动率
组合优化:求解最优权重
交易执行:按权重建仓、动态调整组合
五、总结
机器学习选股 → 决定“买谁”,提供 Alpha 信号
组合优化权重 → 决定“买多少”,控制风险、优化资金分配
两者结合 → 模块化、稳健、高效,形成现代量化策略的核心框架
简而言之:机器学习告诉你值得买什么股票,组合优化告诉你每只股票应该买多少。
这是现代量化投资中最成熟、最稳健的策略逻辑。
在量化投资中,两个核心问题始终存在:
股票选择(谁值得买)
资金分配(每只股票买多少)
现代量化策略的成熟模式是:机器学习用于选股,组合优化用于分配权重。
这种方法将预测能力与风险控制结合起来,使策略既聪明又稳健。
一、机器学习选股:挖掘Alpha信号
机器学习模型的主要作用是从大量因子数据中提取有预测能力的信息,包括:
技术因子(均线、动量、波动率)
基本面因子(财务指标、估值、盈利能力)
行业与风格因子
非结构化信息(新闻、舆情、事件)
常用模型包括:
XGBoost / LightGBM:处理非线性、多维特征
随机森林:抗噪声能力强,适合因子排序
LSTM / Transformer:捕捉时序模式
线性模型(Lasso/ElasticNet):解释性强,适合多因子回归
输出结果通常是:
股票未来收益预测值(回归)
股票上涨概率(分类)
排序或分数
机器学习解决的是“买谁”的问题,但不涉及每只股票买多少。
二、组合优化权重:风险与收益平衡
选股确定后,下一步是资金分配。直接按预测值等比例买入可能会带来:
单股或单行业过度集中
高波动组合
损失风险难以控制
组合优化解决这一问题,目标是:
控制组合波动率和回撤
满足行业、风格、市值等约束
在风险可控前提下最大化收益或夏普比率
常见优化方法:
最小方差组合:追求最小波动
均值-方差优化:在收益与波动间寻找最优平衡
最大化夏普比率:提高风险调整后收益
风险平价:让每只股票或行业贡献相同风险
CVaR 优化:降低极端风险
组合优化输出的是每只股票的权重向量,使策略既追求收益,又可控风险。
三、为什么要分开设计?
模块化清晰:
机器学习专注预测
优化专注资金配置
风险可控:避免单股或单行业集中
灵活可替换:更换模型或优化方法,互不影响
易于回测和实盘执行:逻辑清晰、风险易量化
四、典型策略流程
数据准备:收集因子、价格、财务等数据
机器学习建模:训练模型,输出股票得分或涨跌概率
股票池构建:选出预测最优的 N 只股票
风险评估:计算协方差矩阵、行业暴露
组合优化:求解最优权重
交易执行:按权重建仓,并动态调整
五、总结
机器学习选股 → 提供 Alpha 信号
组合优化权重 → 控制风险、优化资金分配
两者结合 → 构建稳健、高效的量化策略
简单来说:机器学习告诉你“买谁”,组合优化告诉你“买多少”。
在现代量化投资中,这一逻辑框架是策略成功的关键。
在量化投资体系中,人们经常把策略划分为两个独立但紧密关联的部分:选股与配权。
过去更多依赖经验与简单指标,而如今,随着数据量不断增大、因子体系不断丰富、机器学习模型不断进化,“用机器学习预测股票表现 + 用组合优化确定资金分配” 已经成为最主流、最稳健的一类量化策略框架。
这篇文章将从逻辑、方法、风险控制与实际应用等角度,深入讲解这一体系。
一、为什么要机器学习选股?
在投资中,“选对股票”永远是收益的源头。
但股票市场噪声巨大、多因子交织,仅靠线性关系或简单指标,很难提取有效的预期收益信号。
机器学习在此提供了三大优势:
⭐ 1. 处理高维、多因子数据
几十甚至上百个因子:财务、技术、行业、风格、新闻情绪……
机器学习可以自然地处理高维特征,并自动捕捉特征之间的非线性关系。
⭐ 2. 自动捕捉复杂结构
如 XGBoost、RandomForest 等树模型可以捕捉:
阶跃行为(如估值低到某个程度才有吸引力)
非线性(如波动率对收益的影响不是线性的)
因子交互(如“低估值 + 高ROE”同时出现才有效)
⭐ 3. 输出可排序的选股评分
机器学习选股不是为了预测精确收益,而是为了:
得分排序
预测上涨概率
预测是否跑赢基准
这些信息都能直接用于构建股票池。
二、选股之后:为什么不能直接等权买入?
这是许多初学者的误区:
“既然机器学习已经选出了最有可能上涨的股票,那我等权买入不就行了吗?”
但现实远远复杂得多。
❗(1)选出的股票可能风险极不均衡
有的波动大、有的行业集中、有的两两高度相关,导致整体组合风险很高。
❗(2)等权可能导致极端敞口
例如 5 只股票有 3 只是同一个行业,那么行业集中度非常高,组合很脆弱。
❗(3)波动率和相关性不同,会导致组合收益/风险比非常差
即使机器学习准确选股,也可能因为不合理的权重分配导致实际收益很差。
因此,第二步一定是 优化权重。
三、组合优化:从“选股”到“配置”
组合优化的目标不是预测市场,而是在给定股票池的前提下,寻找一个:
收益最高
波动最小
夏普比率最高
风险暴露可控
行业平衡
交易成本最小化
的权重向量。
常见方法包括:
1. 最小方差组合(Minimum Variance)
忽略收益,只追求风险最低。
适合:
回撤要求极高
高频调仓
平稳策略
2. 均值-方差优化(Mean-Variance)
马克维茨经典模型:
在收益与风险之间找最佳平衡。
3. 最大夏普比率(Max Sharpe)
最常用的目标,适合机器学习选股:
机器学习给出预期收益
协方差矩阵给出风险与相关性
求解最大 Sharpe 的权重
4. 风险平价(Risk Parity)
每一只股票的风险贡献相同,使组合不依赖某个单一品种。
5. CVaR / VaR 优化
考虑极端市场,控制尾部风险。
四、为什么“机器学习选股 + 组合优化配权”最强?
因为这两者分别解决了投资中的两个最难的问题:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
它们对接之后,形成一套科学的投资框架:
机器学习 给每只股票一个质量评分或上涨概率
选出 top N 股票构建股票池
组合优化 根据:
协方差矩阵
预期收益
风险预算
来给出一组最优权重执行调仓
这样的体系既捕捉 Alpha,又控制风险,是完全现代化的量化投资策略。
五、完整策略流程示意
下面是一个典型的现代量化流程:
Step 1:获取数据
因子数据
K 线与行情
财务数据
行业分类
新闻/舆情(可选)
Step 2:机器学习建模
训练模型(如 XGBoost)
输出:上涨概率或收益预测
排序选出前 N 只股票
Step 3:风险建模
计算协方差矩阵
估计预期收益
判断行业/风格暴露
Step 4:组合优化
最大夏普
最小方差
风险平价
行业约束
最大权重限制
Step 5:执行调仓
根据信号更新权重
控制交易成本
进行下一个周期
六、总结:从预测到管理,实现系统化投资
“机器学习选股、组合优化权重”不是一句口号,而是一套严谨有力的框架:
机器学习负责 发现机会
组合优化负责 管理风险
二者结合,使投资过程可量化、可执行、可解释、可回测。
这是目前投资界最成熟、最通用、最具扩展性的策略体系之一。
在现代量化投资体系中,“如何选股票”与“如何分配权重”是两个本质不同但紧密耦合的环节。机器学习作为强大的预测工具,擅长从复杂数据中提取潜在规律;而经典的组合优化方法则擅长在风险和收益之间寻找最优平衡点。
因此,一个越来越多的机构和量化团队采用的框架就是:
机器学习负责“选哪几只股票”,组合优化负责“怎么配这些股票的比例”。
二者像双引擎一样,共同驱动智能投资组合的构建。
本文将从选股逻辑、风险管理、权重优化、典型流程与示例等角度,完整地展示这套框架是如何协同运作的。
一、为什么要用机器学习选股?
传统选股依靠人为规则、线性模型或简单因子,而资本市场是非线性、噪声巨大、变量交互复杂的系统。机器学习的优势恰恰在于:
1. 自动提取复杂模式
树模型(XGBoost、LightGBM)可以自动发现:
因子之间的非线性关系
因子之间的交互效应
长尾风险暴露
相比线性模型,机器学习能捕捉更多微妙信号。
2. 容易扩展更多因子
你可以把几十上百个因子塞入一个模型中,而不必担心多重共线性、冗余因子等问题。
3. 直接输出“上涨概率”
例如 XGBoostClassifier 会输出:
P(up) = 0.71
P(down) = 0.29
这样你可以选出“上涨概率最高”的股票,形成一个有预测意义的股票池。
4. 持续迭代、滚动训练
机器学习模型训练一次之后,可以每天滚动更新因子、重新预测,实现智能动态选股。
二、为什么选股之后还要做组合优化?
机器学习给你的是“哪些股票更可能涨”,但并没有告诉你:
每只股票应该占多少仓位?
风险如何控制?
是否要行业分散?
是否要限制单股最大权重?
如何平衡收益和风险?
这就需要下一步:
组合优化:在已选股票池内,分配最合理的权重。
组合优化不是预测,而是 配置。
三、从选股到权重:一个标准的完整流程
以下是目前最常见、最稳定的机器学习 + 组合优化的流程:
步骤 1:数据准备
因子值(市值、波动率、动量、估值等)
次日收益率(用于训练 Label)
行业分类、市值中性化等预处理(可选)
步骤 2:训练机器学习模型
例如使用 XGBoostClassifier:
输入:因子矩阵 X输出:涨跌标签 y(1 = 涨,0 = 跌)目标:预测未来上涨概率
训练模型后,我们对“明天”进行预测:
预测结果:股票 → 上涨概率 P(up)
步骤 3:机器学习选股
从全部股票中选择:
P(up) 排名前 N 的股票
或P(up) > 某阈值的股票
或模型输出“Buy / Hold / Sell”
这一步得到 股票池,例如 10 只。
步骤 4:组合优化权重
常见目标函数:
(1)最小方差组合
风险最低,适合稳健型。
(2)最大夏普比率组合
收益风险比最高,是最常见的目标。
(3)最大化预期收益(基于 ML 输出概率)
例如用:
(4)风险平价(Risk Parity)
让所有资产承担相同风险贡献。
(5)均值–方差(Markowitz)
经典的收益–风险权衡。
组合优化会输出每只股票的 权重 w_i。
步骤 5:得到最终投资组合
组合 = 选股 + 权重
例如:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
四、为什么这种“选股 + 权重”框架特别有效?
1. 机器学习提高方向预测能力
模型利用复杂因子体系找到“可能涨”的股票。
2. 组合优化控制风险、分散不确定性
机器学习预测永远有误差,因此权重不能靠主观判断,而应通过优化模型控制风险。
3. 两者结合减少回撤,提高稳定性
如果只做 ML 选股 → 容易满仓买 1~2 个预测最强的股票 → 波动巨大
如果只做组合优化 → 输入收益预期可能噪声很大 → 结果不稳定
但将二者结合:
机器学习负责“选优”,
优化算法负责“分配”,
最终组合更稳健、更可控、年化更高。
五、一个简单的结果示例
在某些历史回测中:
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
| ML 选股 + 组合优化 | 1.4 | -14% | 18% |
可见二者叠加后的提升非常显著。
六、总结
如果用一句话概括智能量化投资的核心逻辑:
机器学习帮助你找到“更可能涨的股票”,
组合优化帮助你“用更聪明的方式配置仓位”。
机器学习负责“方向选择”,组合优化负责“比例分配”,
这套双引擎框架兼具“预测能力 + 风险控制能力”,
已经成为现代量化投资中最主流、最有效、最具可扩展性的体系。
在现代量化投资体系中,“选哪些股票”和“这些股票怎么分配权重”始终是两个最关键的问题。它们看似相关,却本质不同;它们目标一致,却各有擅长;它们独立工作,却需要协同配合。
在实际的投研和交易框架里,一个越来越清晰、越来越成功的做法是:
让机器学习负责选股,让组合优化负责权重。
这已经成为越来越多量化团队、对冲基金和资管机构的核心逻辑。
本文将从原理、流程到实际价值,带你理解为什么这套双引擎框架如此强大。
一、机器学习为什么适合选股?
机器学习模型(如 XGBoost、LightGBM、随机森林、神经网络)最擅长的一件事就是:
从大量历史数据中,学习股票未来的涨跌概率或预期收益。
具体来说,机器学习选股解决的问题是:
哪些股票明天更可能上涨?
哪些股票当前性价比更高?
哪些股票的因子组合表现最强?
机器学习的优势在于:
1. 能处理大量因子
几十个、上百个因子都可以喂进模型,而不担心多重共线性、冗余因子等问题。
2. 能捕捉复杂的非线性关系
例如:
高动量 + 低波动一起才有效
市值、估值与成交量有交互效应
高频信号和低频因子组合更强
这些传统线性模型难以捕捉,但机器学习可以轻松识别。
3. 输出概率,更稳定
机器学习选股不是简单地“涨/跌”二分类,而是输出上涨概率:
这样你就能挑出 最有把握 的股票。
二、为什么选股之后必须做“组合优化”?
机器学习只是告诉你:
“这些股票里,有些更可能涨。”
但它并不会告诉你:
每只股票买多少?
风险如何控制?
如何避免某个行业过度集中?
怎么平衡收益和波动率?
这就是组合优化的领域。
组合优化的任务不是预测,而是:
在给定股票池中找出最优的权重分配。
常见目标包括:
最小化组合波动率(最小方差)
最大化夏普比率(风险调整后收益)
均值-方差优化(Markowitz)
风险平价(Risk Parity)
最大化预期收益
根据投资者偏好,权重可以控制:
单股不能超过 15%
行业权重不能超过 30%
总风险不超过某阈值
组合 beta 接近 1(或中性)
这些都是组合优化可以做的,而机器学习无法完成。
三、机器学习选股 + 组合优化权重 的标准流程
下面是一个实际机构常用的流程:
步骤 1:准备因子与标签
过去的因子(动量、估值、交易、波动…)
次日收益(作为标签)
步骤 2:训练机器学习模型(如 XGBoost)
目标:预测某只股票下期上涨的概率。
模型输出类似:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
步骤 3:根据概率选出股票池
例如:
选出概率排名前 10 的股票
或选出概率 > 0.6 的股票
这一步生成 备选股票池。
步骤 4:使用组合优化决定权重
常用优化目标:
最大夏普比率
最小方差
风险平价
最大化 ML 给出的期望收益
优化后得到:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
步骤 5:执行交易,形成最终组合
得到一个既有预测能力、又有可靠风险控制的组合。
四、为什么这套“双引擎”比单独使用更强?
如果只用机器学习选股,而不做优化:
可能全部押注于同一个行业
权重难以合理分配
波动率和回撤容易失控
预测噪声放大组合风险
如果只做优化,而不用机器学习选股:
风险控制好,但收益信号弱
难以跑赢大盘(缺乏 alpha)
优化只是“分配”,不是“预测”
但把两者结合起来:
机器学习提供 Alpha(收益),组合优化提供 Risk Control(风险控制)。
效果比任何单独部分都更强。
五、真实量化机构的实践经验
目前国内外大量量化团队、私募机构普遍采用:
机器学习(XGBoost/LightGBM)负责选股
组合优化(最大夏普、风险平价)负责权重
这种框架的优势在于:
提高组合稳定性
提升夏普比率
减小回撤
兼容新的因子、行业限制、风险模型
是目前最成熟、最稳定,也是最容易迭代和扩展的投资框架之一。
六、总结
一句话总结:
机器学习告诉你买什么,组合优化告诉你怎么买。
机器学习解决 方向性 问题,负责“找到上涨概率更高的股票”;
组合优化解决 配置 问题,负责“把钱分配在最合理的位置”。
选股创造 alpha,权重决定风险。
两者结合,就是智能投资的核心引擎。
在量化投资不断演进的今天,一个经典而高效的框架已经成为行业共识:
用机器学习预测谁更可能上涨,用组合优化决定每只股票该占多少仓位。
这两者像是一辆智能赛车的两个核心部件:
机器学习模型是引擎,提供动力(预测能力)。
组合优化是变速箱,让动力高效、安全地传递到轮子上。
只有二者结合,投资者才能在复杂的市场环境中取得既稳健又高收益的表现。
本文将带你理解为什么“选股归机器学习、配重归组合优化”越来越成为主流方法。
一、投资的两大问题:选什么 & 怎么配?
在资本市场中,无论策略多么复杂,本质都在回答两个根本问题:
1. 哪些股票值得买?(选股)
这是一个预测问题,需要判断未来一段时间内哪些股票更可能上涨、更具性价比。
2. 买多少?(权重)
这是一个分配问题,需要在风险、收益、行业暴露等多个限制下优化仓位。
这两项任务分别对应不同的技术专长:
预测交给机器学习,分配交给组合优化。
它们不是替代关系,而是完美互补。
二、为什么机器学习擅长选股?
机器学习的强项在于:
(1)从海量因子中抓住上涨规律
一个股票可以有几十甚至上百个因子:
估值因子
动量因子
情绪因子
波动率因子
技术面特征
基本面变化(ROE、盈利增速)
行业强弱
资金流向
机器学习模型(如 XGBoost、LightGBM)能够自动从这些因子中学习复杂关系,例如:
“高ROE+低波动”更容易上涨
“短期超跌+中期强势”更容易反弹
“换手率+成交量结构”带来趋势延续
这些规则人工难以总结,但模型能自动提取。
(2)输出上涨概率,而不是单纯的涨跌判断
机器学习模型往往输出:
这样可以根据概率排序,形成一个“最有潜力”的股票池。
(3)持续滚动更新
机器学习模型可以每天、每周重新训练,让策略随市场变化而自适应。
这使得“机器学习选股”不仅准确,而且始终保持敏感性和现代性。
三、为什么组合优化必须负责权重?
即使机器学习找到了相对更好的股票,也仍有很多不确定性,比如:
每只股票涨幅不同
波动率不同
不同行业风险敞口不同
股票之间相关性不同
如果不做组合优化,就会出现:
全仓押注最“看好”的股票,但这只股票可能只是随机噪声高
权重过度集中,导致回撤巨大
股票池虽然可靠,但整体组合风险失控
组合优化正是解决这些问题的利器。
组合优化做的不是预测,而是最优分配
常见的目标包括:
● 最小方差(最小风险)
找出波动率最低的组合。
● 最大夏普比率(最优收益风险比)
同时考虑收益和风险。
● 均值–方差优化
Markowitz 经典框架。
● 风险平价(Risk Parity)
让每只股票贡献相同的风险。
● 加约束的优化
单股最大 10%
行业最大 30%
控制组合 beta
控制换手成本
组合优化确保策略不仅“能赚钱”,而且“稳得住”。
四、机器学习选股 + 组合优化权重:一个典型流程
以下是机构常见的合作流程:
步骤1:收集因子与数据
包括历史 K 线、基本面、估值、技术面因子等。
步骤2:机器学习模型训练
例如 XGBoostClassifier。
目标:
输出上涨概率。
步骤3:根据概率选出股票池
例如:
选出上涨概率排名前 10% 的股票
或设定阈值:P(up) > 0.6
此时得到了一个“预期向上”的股票池。
步骤4:对该股票池做组合优化
常用目标:
最大夏普比率
最小方差
风险平价
最终形成权重。
步骤5:执行交易,形成组合
示例(简化):
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
五、为什么这种“双引擎架构”比单独使用更强?
1. 单靠机器学习选股 → 会过度集中、风险高。
选出来的股票可能行业集中、波动大,全仓投入会放大噪声。
2. 单靠组合优化 → 缺乏 alpha 来源。
如果没有预测信号,优化再高级也只是“分散持仓”,难以跑赢市场。
3. 两者结合 → 既有 alpha,又有稳健性。
ML 提供收益逻辑
优化模型提供风险管理
结果:
年化收益更高
夏普比率更高
最大回撤更低
策略更稳健
这也是目前全球量化私募的主流范式。
六、结语:预测与配置的完美合作
一句话总结本文核心思想:
机器学习擅长预测方向,组合优化擅长配置权重。
两者组合,才是现代量化投资的最佳实践。
如果把量化投资比喻成驾驶:
机器学习告诉你往哪开(方向)
组合优化决定油门踩多大(力度)
只有方向正确,力度适当,才能跑得又快又稳。
在现代量化投资体系中,“因子—选股—组合”已经成为标准化的研究框架。但在这个链条中,一个容易被忽视的关键事实是:组合优化不是万能工具,它无法告诉你“买什么股票”,它只能告诉你“这些股票之间如何分配权重”。
因此,一个高质量组合优化的前提只有一个:
必须先确定股票池。
而在当今行业实践中,机器学习模型越来越成为“确定股票池”的核心手段。它负责判断哪些股票未来上涨概率高、风险低,或具备更好的收益特征;之后,组合优化模块再根据风险与收益权衡计算最终仓位。
一、为什么优化组合之前必须确定股票池?
组合优化(如 Markowitz、最小方差、最大夏普、风险平价)解决的是这样一个问题:
在给定的一组股票中,找到最优的权重组合。
换句话说,优化器的输入是:
当前有哪些股票(可投资集合)
每只股票的预期收益
每只股票的风险(波动)
股票之间的协方差
优化器只会回答:
“既然你要买这些股票,我建议你权重如何分配。”
它不会告诉你:
哪些股票更值得买?
哪些股票未来收益更高?
哪些股票风险更小?
因此,如果 股票池不优质,组合优化也无能为力。
二、机器学习:负责“选股”的智能大脑
随着数据维度与市场复杂度不断提升,人工挑股票已远远不够。
机器学习模型(XGBoost、LightGBM、随机森林、神经网络)成为了生成股票池的核心工具。
它们可以解决两个关键问题:
1. 哪些股票未来更可能上涨?(分类)
例如:
用 XGBClassifier 预测 “明天是否上涨”
得到每只股票上涨的概率
按概率排序,选前 N 个构成股票池
这是 机器学习选股的最常见做法。
2. 哪些股票未来收益更高?(回归)
例如:
用 XGBRegressor 预测未来 5 日收益
按预测收益排序
选最优的股票进入股票池
无论分类还是回归,本质都是:
机器学习负责从全市场 4000+ 股票中挑出“值得投资的那一部分股票”。
三、组合优化:负责“权重分配”的数学大脑
当机器学习已经筛选出“值得投的股票”,组合优化才真正开始发挥作用。
常见优化方式包括:
✔ 最大化夏普比率(收益 / 风险)
✔ 最小化组合方差
✔ 最大化预期收益(在风险约束下)
✔ 风险平价(每个股票贡献相同风险)
✔ 最小化 CVaR(极端风险最小化)
组合优化的输出只有一个:
这些股票分别应该买多少?
例如:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
机器学习决定:谁进股票池
组合优化决定:它们各占多少仓位
两者配合,就像一个完整的交易大脑:
右脑(机器学习)负责洞察机会
左脑(组合优化)负责理性分配
四、机器学习选股 + 组合优化权重:现代量化的黄金流程
完整流程可以写成:
数据准备(因子、行情、财务指标)
机器学习建模(分类/回归)
预测未来收益/上涨概率
生成股票池(Top-N 股票)
估算风险与协方差矩阵
组合优化求解最优权重
实际投资 & 回测验证
你会发现:
机器学习决定:哪些股票值得投资;
组合优化决定:这些股票怎么买才最稳健。
两者配合,才是现代量化投资的完整闭环。
五、为什么必须先选股再优化?(核心结论)
原因总结如下:
✔ 组合优化无法评估“股票好不好”,只能分配权重
✔ 股票池越优质,优化结果越有效
✔ 机器学习能从海量股票中找到“最值得买的那部分”
✔ 选股决定收益上限,优化决定风险下限
✔ 两者结合,胜过单独依赖任何一个模块
一句话总结:
优化器不是神,它只是一个数学分配器;
股票池质量决定了组合最终能走多远。
六、结语:量化投资的本质,是“先挑对,再分好”
如果用一句话概括“机器学习负责选股、组合优化负责权重”:
机器学习找到“应该买什么”,组合优化告诉“每个买多少”。
两者合体,才能打造真正稳定、可持续的量化策略。
这是未来量化投资的必然路径,也是理解量化体系的核心钥匙。
在现代量化投资体系中,研究者常常会接触三个核心概念:
单因子测试(验证因子有效性)、
机器学习选股(预测个股未来表现)、
组合优化权重(构建风险与收益最优组合)。
这三者不是孤立存在的,它们共同构成了一条完整的量化投资链路:
因子是原料,机器学习是加工过程,组合优化是最终包装。
本篇文章将从逻辑和实践两方面,系统讲解这“三步走”如何串联起完整的量化策略构建流程。
一、单因子测试:验证因子是否能赚钱
在量化世界中,“因子”是一种具有经济含义的指标,用来刻画股票的某种特征,例如:
估值(PE、PB)
质量(ROE、ROA)
动量(过去收益率、涨跌趋势)
风险(波动率、Beta)
成长(营收增速、利润增速)
为什么要做单因子测试?
因为因子不一定长期有效,必须验证:
因子是否能解释未来收益?(IC)
因子值高的股票是否真的比因子低的收益更好?(分组回测)
因子是否稳健?是否跨行业、跨时间段有效?
例如:
计算**IC(Information Coefficient)**看相关性
做分层回测查看收益曲线
观察换手率、风险暴露等稳定性指标
单因子测试的本质:筛掉垃圾因子,留下有效信息。
它告诉我们:
哪些指标具有预测价值,哪些指标完全没用。
二、机器学习选股:将多个因子整合成预测模型
单因子测试只回答一个问题:
某个因子是否有效?
但市场是复杂的,单个因子往往难以捕捉所有信息,因此需要把多个因子整合起来。
这就轮到 机器学习模型 出场了。
常用模型包括:
XGBoost(业界最常用)
LightGBM
随机森林(Random Forest)
逻辑回归(LR)
神经网络(MLP)
机器学习做的事情是什么?
它解决的是:
哪些股票未来更可能上涨?
哪些股票未来收益更高?
也就是:选股模型(Stock Selection Model)
机器学习如何实现这个目标?
输入:多个因子(特征)
输出:上涨概率 / 未来收益预测
排序:按模型得分从高到低
选择:Top N 或 Top quantile 作为股票池
例如:
模型预测上涨概率排名:
1. 股票 A – 0.88
2. 股票 C – 0.85
3. 股票 F – 0.81
…
你会发现:机器学习不像组合优化,它回答的是:
你该买哪些股票。
是典型的 Buy or Not Buy 问题。
三、组合优化权重:计算“买多少”才最好
一旦机器学习确定了股票池(例如 100 只股票),下一步就不是盲目等权,而是:
在这些股票中,如何分配最优权重?
这就是组合优化的任务。
常见方法包括:
✔ 最小方差组合(Minimum Variance)
降低整体风险,让组合更稳健。
✔ 最大夏普比率(Maximize Sharpe)
在风险与收益之间寻找最佳性价比。
✔ 风险平价(Risk Parity)
让每个股票贡献相同风险。
✔ 最小化 CVaR(控制极端风险)
组合优化的本质是一个数学优化问题,它解决的是:
权重怎么配?(How to Allocate)
而不是:
股票价值如何?(Whether to Buy)
它总是假设:
股票池已经确定
这些股票值得投资
要做的只是最优配比
这就是“机器学习负责选股,组合优化负责权重”的经典分工。
四、三者之间的关系:一条完整的量化策略流水线
一个成熟的量化策略往往是这样工作的:
① 单因子测试:找有效信息
动量是否能预测未来收益?
市值因子是否有效?
质量因子是否长期表现好?
筛出可靠因子之后,进入下一阶段。
② 机器学习选股:整合多因子,预测未来表现
输入:10–200 个因子
目标:预测未来 5 日收益 / 是否上涨
输出:股票池(Top N)
机器学习负责做出选择:
这些股票最值得买。
③ 组合优化:对选出的股票分配权重
输入:
股票池
预期收益(由 ML 提供)
风险(协方差矩阵)
约束条件(行业、权重上限等)
输出:
每只股票的最优买入比例。
五、为什么要三者结合,而不是只用某一个?
1. 单因子测试 → 验证因子有效性(防止垃圾入模)
模型质量取决于是否输入正确因子。
2. 机器学习 → 解决股票选择的非线性预测问题
单因子无法解决多因子复杂关系,ML 能。
3. 组合优化 → 控制风险、最大化效用
等权/市值权重缺乏风险考虑,优化器能解决。
三者的分工是明确而互补的:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
它们构成现代量化投资的“三段式火箭”。
六、总结:因子 → 模型 → 组合,构成完整量化体系
一句话总结全文:
单因子测试提供原料,机器学习整合因子做预测,组合优化负责最终配比,三者共同构成完整的量化策略链路。
这三步不仅是逻辑的延续,更是投资流程的层层筛选:
因子:信息筛选
机器学习:股票筛选
组合优化:权重筛选
最终产出既能选对股票,又能合理分配仓位的投资组合。
这就是现代量化投资体系的本质:
从数据到洞察,从预测到决策,从股票到组合的科学流程。
——————概率游戏 ——————
概率资本:概率资本涉足全球化投资组合,包括多市场、多渠道、多产品。具体表现为股票(A股、港股、美股及其他国家二级市场)、期货、外汇、及一级股权投资市场。
顺势概率:趋势不会轻易形成,也不会轻易结束,一两个涨停跌停不足以改变趋势。顺势而为,概率优势是交易的理念。耐心等待属于自己的交易机会,赚自己看得懂的钱。
发布频率:一般情况下,每两周筛选一次(周二左右),特殊情况下会有所调整;心态及文章分享会不定时发送。
入场时机:交易机会不是做出来的,是等出来的。每次发布的入场时机基于第一入场时机原则,如果错过第一入场时机,就耐心等待下一个机会;下一次发布的时候如果入场机会还在,会继续入选,但如果有一段涨幅,可能就不再入选,但并不代表该标的没有继续上涨的机会,只是错过第一入场时机,激进的朋友可以追进去。这市场不缺机会,缺的是等待机会的耐心。
投资组合:每次发布交易机会列表会把符合交易机会的交易标的全部筛选出来,对数量没有强制要求。没有强制规定一次只能选20个、30个或者50个,如果一个都不符合,可能一个也不发布,如果都符合,可能都会发布,和数量无关,只和是否符合交易原则有关。
等待原则:弱水三千,只取一瓢饮。提高赢面,学会等待,放弃一切似是而非的机会;放弃、放弃、还是放弃, 放弃看不懂的复杂趋势;等待、等待、还是等待,等待能看懂的简单趋势。静静地等待,等待完全符合规则的机会出现,等待概率优势的机会出现,等待属于自己的机会。在等待概率优势机会的过程中,必须经得起各种诱惑,不要妄想抓住所有机会,只赚属于自己的钱,只交易属于自己的交易机会。
统计世界:万物有周期、世事有轮回。周期、轮回、钟摆。万事万物皆可统计,统计,世界,统计世界;世界,统计,世界统计;大盘统计,统计大盘;大盘追踪,追踪大盘。多市场、多品种、多产品、多周期、多技术、多角度、多维度、多层次、多种类、多世界、多技术指标、多统计、多追踪。多维度多角度进行统计、个体、全体、局部、全局、一个维度、两个维度、多个维度、不同角度。1个统计不够,来两个,两个统计不够来一百个,一百个不够来一万个。多高度、多角度、多维度统计。大盘统计、大盘追踪,这世界没什么不能统计的。万物相通,周期轮回,在统计的过程中,你会有意无意发现这世界的奥妙规律。
利弗莫尔:如果这一辈子我在投资交易中没有成功,并不是我没有这个能力,而是我自己不想成功。因为我已经知道了在市场中赢钱的办法:只要我有足够的耐心等待,只在市场的走势符合我的经验和理论,只在我有把握的范围内才行动,我就能赚到钱。而且,那样的机会早晚会出现的。如果我的投机事业最终失败了,肯定是因为我违背了自己的交易方法和经验教训,做了大量我自己也认为是错误的交易。例如,被市场走势诱惑追涨杀跌,无法控制自己贪婪的交易欲望,逆势交易,等等。
合作机会:资方、机构合作,可以直接留言。
欢迎关注微信公众号,后台回复【真实姓名-机构-职位-联系方式】加入概率资本交易圈。


