默默关注
扫码添加
回复“时间变化·MDP”
免费获取全部论文
论文标题:Learning and Planning for Time-Varying MDPs Using Maximum Likelihood Estimation
作者:Melkior Ornik, Ufuk Topcu
期刊名称:Journal of Machine Learning Research 22 (2021) 1-40
真实世界经常“边走边变”(气候、设备老化、周期波动)。传统强化学习多数假定环境不变,或者用固定滑窗“忘旧迎新”,要么学慢、要么忘得太多。本文提出一套面向时间变化 MDP(TVMDP)的统一方法:在单次运行中持续估计当前的环境,并据此制定既能完成任务、又能主动“探路降不确定”的策略。
核心做法
▶改进版极大似然(CCMLE): 不再把过往数据一股脑儿平均,而是在**“变化速率有上界”的前提下,给出最可能**的“此刻”转移模型。环境若短期剧变,旧数据影响会被自动“压低”;若恢复平稳,它又能快速“收敛回真相”。
▶不确定性度量: 用“再来一条观测会把估计改多少”+“同等可能的多种模型之间差多远”两件事,量化每个状态–动作的估计不确定,可直接当作探索奖励。
▶学习+规划一体化: 在执行任务的同时,用不确定性当“额外收益”驱动探索,边学边控,整体效率更高。
为什么有用
▶能识别并追踪变化: 一旦环境改了(慢变、周期、突变),模型能尽快甄别并更新,不必“重启学习”。
▶与经典方法兼容:当环境其实不变时,CCMLE会退化成常见的频数估计;当变化存在,它又优于“滑窗/重启”这些启发式。
▶可计算可扩展:估计问题是凸优化,还能做“遗忘版”近似,复杂度不随时间线性膨胀。
看看他们做了哪些实验
▶巡逻任务(网格世界):动作效应缓慢对调。CCMLE较“时间不变假设”的估计,更早降误差;规划上也更快完成巡逻序列。
▶两状态周期 MDP:真实概率按周期摆动。CCMLE基本贴着真值轨迹走;滑窗法要么滞后、要么抖动大。
▶周期多臂老虎机:各臂回报周期变化。结合不确定性奖励,平均收益显著高于只利用或只探索的基线。
▶风场估计(随机扰动):即便变化速率界设得不理想,方法仍较常规估计更稳健。
怎么抄作业
▶场景画像:跨时段性能漂移(流量高峰/季节性)、硬件/工况渐变、策略执行受外部环境影响的系统。
▶快速上手:
为系统设定变化速率上界(来自领域常识/历史波动幅度);
在线运行时用 CCMLE 更新当前转移;
不确定性并入回报,按“探索–利用”选动作(滚动重算、短视窗)。
▶工程选项:算力紧时用遗忘版 CCMLE;长周期场景用短视规划(如 1 步或有限步)降低计算与误差传导。
与常见路线怎么对比
▶vs. 重启/滑窗:不用拍脑袋定窗口;旧数据影响由“变化上界+似然”自适应权衡。
▶vs. 鲁棒规划:不仅“抗不确定”,还主动去把不确定变小,长期回报更可观。
▶vs. 连续状态时间戳法:避免把“时间”并进状态导致的维度爆炸与学习困难。
与常见路线怎么对比
▶先验需求:需要对“变化幅度上界”有个靠谱估计;过松或过紧都会影响追踪速度。
▶计算代价:长时段严格求解会增大优化规模,需配合遗忘/近似策略。
▶稀疏可达性:很久没访问的状态–动作,其当下估计仍会不准,策略需鼓励周期性触达。
不把世界当静止,也不靠拍脑袋“滑窗”:这篇工作用变化意识的极大似然 + 不确定性驱动,把“在变环境里边学边做”变成一套可证明、可计算、可落地的流程。
扫码添加
回复“时间变化·MDP”
免费获取全部论文
AI-enabled

