大数跨境
0
0

【顶刊论文解读】时间变化 MDP:用改进版极大似然一边学一边做

【顶刊论文解读】时间变化 MDP:用改进版极大似然一边学一边做 AI-enabled
2025-11-25
1
点击蓝字

默默关注




扫码添加

回复“时间变化·MDP

免费获取全部论文


文标题:Learning and Planning for Time-Varying MDPs Using Maximum Likelihood Estimation

作者:Melkior OrnikUfuk Topcu

期刊名称:Journal of Machine Learning Research 22 (2021) 1-40

image.png




真实世界经常“边走边变”(气候、设备老化、周期波动)。传统强化学习多数假定环境不变,或者用固定滑窗“忘旧迎新”,要么学慢、要么忘得太多。本文提出一套面向时间变化 MDP(TVMDP)的统一方法:在单次运行中持续估计当前的环境,并据此制定既能完成任务、又能主动“探路降不确定”的策略。



image.png




核心做法

改进版极大似然(CCMLE): 不再把过往数据一股脑儿平均,而是在**“变化速率有上界”的前提下,给出最可能**的“此刻”转移模型。环境若短期剧变,旧数据影响会被自动“压低”;若恢复平稳,它又能快速“收敛回真相”。

▶不确定性度量: 用“再来一条观测会把估计改多少”+“同等可能的多种模型之间差多远”两件事,量化每个状态–动作的估计不确定,可直接当作探索奖励

▶学习+规划一体化: 在执行任务的同时,用不确定性当“额外收益”驱动探索,边学边控,整体效率更高。






为什么有用

能识别并追踪变化: 一旦环境改了(慢变、周期、突变),模型能尽快甄别并更新,不必“重启学习”。

▶与经典方法兼容:当环境其实不变时,CCMLE会退化成常见的频数估计;当变化存在,它又优于“滑窗/重启”这些启发式。

▶可计算可扩展:估计问题是凸优化,还能做“遗忘版”近似,复杂度不随时间线性膨胀。




看看他们做了哪些实验

巡逻任务(网格世界):动作效应缓慢对调。CCMLE较“时间不变假设”的估计,更早降误差;规划上也更快完成巡逻序列

两状态周期 MDP:真实概率按周期摆动。CCMLE基本贴着真值轨迹走;滑窗法要么滞后、要么抖动大。

周期多臂老虎机:各臂回报周期变化。结合不确定性奖励,平均收益显著高于只利用或只探索的基线。

风场估计(随机扰动):即便变化速率界设得不理想,方法仍较常规估计更稳健




怎么抄作业

▶场景画像:跨时段性能漂移(流量高峰/季节性)、硬件/工况渐变、策略执行受外部环境影响的系统。

▶快速上手

    为系统设定变化速率上界(来自领域常识/历史波动幅度);

    在线运行时用 CCMLE 更新当前转移;

    不确定性并入回报,按“探索–利用”选动作(滚动重算、短视窗)。

▶工程选项:算力紧时用遗忘版 CCMLE;长周期场景用短视规划(如 1 步或有限步)降低计算与误差传导。




与常见路线怎么对比

▶vs. 重启/滑窗:不用拍脑袋定窗口;旧数据影响由“变化上界+似然”自适应权衡

▶vs. 鲁棒规划:不仅“抗不确定”,还主动去把不确定变小,长期回报更可观。

▶vs. 连续状态时间戳法:避免把“时间”并进状态导致的维度爆炸与学习困难



与常见路线怎么对比

▶先验需求:需要对“变化幅度上界”有个靠谱估计;过松或过紧都会影响追踪速度。

▶计算代价:长时段严格求解会增大优化规模,需配合遗忘/近似策略。

▶稀疏可达性:很久没访问的状态–动作,其当下估计仍会不准,策略需鼓励周期性触达




不把世界当静止,也不靠拍脑袋“滑窗”:这篇工作用变化意识的极大似然 + 不确定性驱动,把“在变环境里边学边做”变成一套可证明、可计算、可落地的流程。




image.png

扫码添加

回复“时间变化·MDP

免费获取全部论文




AI-enabled











image.png
扫码咨询
 AI 探索,就选我们
多域深耕,成果保障


点分享
点收藏
点在看
点点赞



【声明】内容源于网络
0
0
AI-enabled
专注于人工智能、机器学习、深度学习、计算机视觉、自然语言处理、智能优化算法等领域
内容 22
粉丝 0
AI-enabled 专注于人工智能、机器学习、深度学习、计算机视觉、自然语言处理、智能优化算法等领域
总阅读56
粉丝0
内容22