

【顶刊论文解读】时间变化 MDP：用改进版极大似然一边学一边做

AI-enabled

2025-11-25

点击蓝字

默默关注

扫码添加

回复“时间变化·MDP”

免费获取全部论文

论文标题：Learning and Planning for Time-Varying MDPs Using Maximum Likelihood Estimation

作者：Melkior Ornik, Ufuk Topcu

期刊名称:Journal of Machine Learning Research 22 (2021) 1-40

真实世界经常“边走边变”（气候、设备老化、周期波动）。传统强化学习多数假定环境不变，或者用固定滑窗“忘旧迎新”，要么学慢、要么忘得太多。本文提出一套面向时间变化 MDP（TVMDP）的统一方法：在单次运行中持续估计当前的环境，并据此制定既能完成任务、又能主动“探路降不确定”的策略。

核心做法

▶改进版极大似然（CCMLE）： 不再把过往数据一股脑儿平均，而是在**“变化速率有上界”的前提下，给出最可能**的“此刻”转移模型。环境若短期剧变，旧数据影响会被自动“压低”；若恢复平稳，它又能快速“收敛回真相”。

▶不确定性度量： 用“再来一条观测会把估计改多少”+“同等可能的多种模型之间差多远”两件事，量化每个状态–动作的估计不确定，可直接当作探索奖励。

▶学习+规划一体化： 在执行任务的同时，用不确定性当“额外收益”驱动探索，边学边控，整体效率更高。

为什么有用

▶能识别并追踪变化： 一旦环境改了（慢变、周期、突变），模型能尽快甄别并更新，不必“重启学习”。

▶与经典方法兼容：当环境其实不变时，CCMLE会退化成常见的频数估计；当变化存在，它又优于“滑窗/重启”这些启发式。

▶可计算可扩展：估计问题是凸优化，还能做“遗忘版”近似，复杂度不随时间线性膨胀。

看看他们做了哪些实验

▶巡逻任务（网格世界）：动作效应缓慢对调。CCMLE较“时间不变假设”的估计，更早降误差；规划上也更快完成巡逻序列。

▶两状态周期 MDP：真实概率按周期摆动。CCMLE基本贴着真值轨迹走；滑窗法要么滞后、要么抖动大。

▶周期多臂老虎机：各臂回报周期变化。结合不确定性奖励，平均收益显著高于只利用或只探索的基线。

▶风场估计（随机扰动）：即便变化速率界设得不理想，方法仍较常规估计更稳健。

怎么抄作业

▶场景画像：跨时段性能漂移（流量高峰/季节性）、硬件/工况渐变、策略执行受外部环境影响的系统。

▶快速上手：

为系统设定变化速率上界（来自领域常识/历史波动幅度）；

在线运行时用 CCMLE 更新当前转移；

不确定性并入回报，按“探索–利用”选动作（滚动重算、短视窗）。

▶工程选项：算力紧时用遗忘版 CCMLE；长周期场景用短视规划（如 1 步或有限步）降低计算与误差传导。

与常见路线怎么对比

▶vs. 重启/滑窗：不用拍脑袋定窗口；旧数据影响由“变化上界+似然”自适应权衡。

▶vs. 鲁棒规划：不仅“抗不确定”，还主动去把不确定变小，长期回报更可观。

▶vs. 连续状态时间戳法：避免把“时间”并进状态导致的维度爆炸与学习困难。

与常见路线怎么对比

▶先验需求：需要对“变化幅度上界”有个靠谱估计；过松或过紧都会影响追踪速度。

▶计算代价：长时段严格求解会增大优化规模，需配合遗忘/近似策略。

▶稀疏可达性：很久没访问的状态–动作，其当下估计仍会不准，策略需鼓励周期性触达。

不把世界当静止，也不靠拍脑袋“滑窗”：这篇工作用变化意识的极大似然 + 不确定性驱动，把“在变环境里边学边做”变成一套可证明、可计算、可落地的流程。

扫码添加

回复“时间变化·MDP”

免费获取全部论文

AI-enabled

扫码咨询

AI 探索，就选我们

多域深耕，成果保障

点分享

点收藏

点在看

点点赞

【声明】内容源于网络

AI-enabled

专注于人工智能、机器学习、深度学习、计算机视觉、自然语言处理、智能优化算法等领域

内容 22

粉丝 0

AI-enabled 专注于人工智能、机器学习、深度学习、计算机视觉、自然语言处理、智能优化算法等领域

总阅读56

粉丝0

内容22