默默关注
扫码添加
回复“MDP”
免费获取全部论文
论文标题:Risk-Averse Learning by Temporal Dierence Methods with Markov Risk Measures
作者:Umit Kose, Andrzej Ruszczynski
期刊名称:Journal of Machine Learning Research 22 (2021) 1-34
传统强化学习大多默认“世界只在乎平均”。长期成本/回报都被压缩成一个期望值,策略也只为这个平均值服务。但现实里的许多系统——比如交通调度、能源、电网、金融策略——往往更怕的是“偶尔一次特别惨”。平均再好,也可能被极端的坏情况拖垮。现有的风险建模要么只能做小问题,要么理论好看但算不动,一碰到大状态空间就失效。作者想做的是:在保持 TD 学习 + 线性函数逼近 这种“能扩展、可实现”框架的前提下,让价值评估从“只看平均”变成“看一个有风险意识的指标”,并且保证收敛。
核心思路
用“动态风险”替代“单纯期望”
▶传统 MDP 只问:长期平均成本多少?
▶这里换成:长期成本的“风险水平”是多少?
▶作者用一类叫 Markov 动态风险度量 的东西,把“风险”做成可以逐步递推的形式——跟动态规划兼容,不是拍脑袋加个惩罚项,而是从风险理论推出来的递推结构。
▶直观理解:每一步不再只是“当前成本 + 未来的期望代价”,而是“当前成本 + 未来那一大串的不确定风险”。
保持线性逼近:能在大状态空间里跑
▶状态空间一旦很大,不可能对每个状态都存一个“风险值”。作者沿用了 RL 里最常见的套路:
· 用一组特征表示状态(特征向量);
· 用线性函数逼近“风险感知价值”;
· 把复杂的动态规划方程投影到这个线性子空间里,得到一个“近似版的风险动态规划”。
▶好处是:既能利用成熟的函数逼近与 TD 理论,又避免了“维度爆炸”。
风险厌恶版 TD:边采样边学“怕亏”的价值函数
在这个框架下,他们构造了风险厌恶版 TD 算法:
▶形式上和普通 TD 很像:一边跑轨迹,一边用“TD 误差”更新参数;
▶区别在于:
那个“下一步的期望价值”被换成了“下一步的风险度量”。
进一步,他们还给出了多步版本(类似 TD(λ)),通过对一段时间的误差信息加权,收敛更平滑。
总结一下,就是:TD 的壳不变,但里边那块“看未来”的逻辑换成了“风险意识版”。
为什么这件事有用?
✅ 真正把“怕亏”带进可扩展 RL
✅ 实现成本接近经典 TD,收益却多了“稳”和“保守
一句话总结
▶这篇论文把“动态风险度量”和 TD 学习、线性逼近拼在一起,让强化学习不再只会“看平均回报”,在大规模 MDP 里学会主动避险、控制尾部损失,整个过程是可计算、可扩展、可证明收敛的。
扫码添加
回复“MDP”
免费获取全部论文
AI-enabled

