大数跨境
0
0

【顶刊论文解读】让 MDP 学会“少踩大坑”

【顶刊论文解读】让 MDP 学会“少踩大坑” AI-enabled
2025-11-18
6
点击蓝字

默默关注




扫码添加

回复“MDP

免费获取全部论文


文标题:Risk-Averse Learning by Temporal Dierence Methods with Markov Risk Measures

作者:Umit KoseAndrzej Ruszczynski

期刊名称:Journal of Machine Learning Research 22 (2021) 1-34




传统强化学习大多默认“世界只在乎平均”。长期成本/回报都被压缩成一个期望值,策略也只为这个平均值服务。但现实里的许多系统——比如交通调度、能源、电网、金融策略——往往更怕的是“偶尔一次特别惨”。平均再好,也可能被极端的坏情况拖垮。现有的风险建模要么只能做小问题,要么理论好看但算不动,一碰到大状态空间就失效。作者想做的是:在保持 TD 学习 + 线性函数逼近 这种“能扩展、可实现”框架的前提下,让价值评估从“只看平均”变成“看一个有风险意识的指标”,并且保证收敛。





核心思路





用“动态风险”替代“单纯期望”

传统 MDP 只问:长期平均成本多少?

这里换成:长期成本的“风险水平”是多少?

作者用一类叫 Markov 动态风险度量 的东西,把“风险”做成可以逐步递推的形式——跟动态规划兼容,不是拍脑袋加个惩罚项,而是从风险理论推出来的递推结构。

直观理解:每一步不再只是“当前成本 + 未来的期望代价”,而是“当前成本 + 未来那一大串的不确定风险”。





保持线性逼近:能在大状态空间里跑

状态空间一旦很大,不可能对每个状态都存一个“风险值”。作者沿用了 RL 里最常见的套路:

·         用一组特征表示状态(特征向量);

·         用线性函数逼近“风险感知价值”;

·         把复杂的动态规划方程投影到这个线性子空间里,得到一个“近似版的风险动态规划”。

▶好处是:既能利用成熟的函数逼近与 TD 理论,又避免了“维度爆炸”。




风险厌恶版 TD:边采样边学“怕亏”的价值函数

在这个框架下,他们构造了风险厌恶版 TD 算法:

形式上和普通 TD 很像:一边跑轨迹,一边用“TD 误差”更新参数;

区别在于:
那个“下一步的期望价值”被换成了“下一步的风险度量”。

进一步,他们还给出了多步版本(类似 TD(λ)),通过对一段时间的误差信息加权,收敛更平滑。

总结一下,就是:TD 的壳不变,但里边那块“看未来”的逻辑换成了“风险意识版”。



为什么这件事有用?

 真正把“怕亏”带进可扩展 RL

✅ 实现成本接近经典 TD,收益却多了“稳”和“保守



一句话总结

▶这篇论文把“动态风险度量”和 TD 学习、线性逼近拼在一起,让强化学习不再只会“看平均回报”,在大规模 MDP 里学会主动避险、控制尾部损失整个过程是可计算、可扩展、可证明收敛的。




image.png

扫码添加

回复“MDP

免费获取全部论文




AI-enabled











image.png
扫码咨询
 AI 探索,就选我们
多域深耕,成果保障


点分享
点收藏
点在看
点点赞




【声明】内容源于网络
0
0
AI-enabled
专注于人工智能、机器学习、深度学习、计算机视觉、自然语言处理、智能优化算法等领域
内容 22
粉丝 0
AI-enabled 专注于人工智能、机器学习、深度学习、计算机视觉、自然语言处理、智能优化算法等领域
总阅读58
粉丝0
内容22