

强化学习---马尔可夫决策过程（白话讲解）

AI开发者日记

2025-11-05

导读：马尔可夫性、马尔可夫链、马尔可夫决策过程全家桶

马尔可夫性

随机过程是一个很浅显的概念，是一个随机的现象随着时间的变化而随机进行演变的过程，比如气候，马尔可夫性说的是——当前状态 S_t 已经充分包含了所有会影响未来的信息，不需要再知道 S_{t-1}， S_{t-2}， … 的具体历史，即

当某一个时刻的状态只取决于上一时刻的状态，而与更早的历史状态无关，这个随机过程就被称为具有马尔可夫性质。

马尔可夫链

马尔可夫过程（Markov process）是具有马尔可夫性质（Markov property）的随机过程。当时间和状态都是离散的情况下，这种过程被称为马尔可夫链（Markov chain）。

何为离散？何为连续？

拿时间举例，离散就是 t=1，2，3，4，5 这种一步步的状态，每次可以取一个单位如整数 1、2、3，而连续就是 t∈[0，+∞），可以取任意单位，整数分数小数等等如 1.3，2，3/4

核心概念：未来只取决于当前，而不取决于过去

这个意思就是说，过去的状态不重要，未来的状态只基于现在决定，即当前的状态就是之前状态之和的压缩，每个时刻的状态，S（t|s）就能够代表 S（t-1|s）这一个由当前状态到下一状态的一个演变过程就被称为马尔可夫链，

但是这个其实更偏向于规律发现，因为它并没有奖励的概念，仅有状态以及状态的变化，在马尔可夫链中，没有“动作/决策”概念，转移概率 P（St+1=s′∣St=s）是固定不变的，所以看起来像是“自然演化”。

而强化学习的任务，需要“奖励”与“决策”，很明显我们没办法直接去使用马尔可夫链来优化训练强化学习模型，不过这并不代表马尔可夫链没有意义，它依然可以应用于如房价预测，天气预测等方面，因为马尔可夫链的核心是随机性的状态转移。

比如今天天气晴【当前状态】-->明天天气【晴或阴】

它受到当前天气影响，今天天气为晴天、那么明天天气有 80%概率会是晴天，今天天气为阴天，那么明天天气 20 概率是晴天，本身晴天阴天概率都是 50%，只不过受到现在天气的因素，从而影响到未来。

如图：我们以上班通勤举例，右边是转移概率矩阵，代表每步转移概率，你现在在哪”已经包含了所有会影响下一步的信息，今天怎么来的公司与昨天堵了多久，昨天是否请假都不影响。

现在在家需要从家到地铁口，但是依然没到公司，所以依然需要向着公司移动；

现在在地铁口，可能需要从地铁口到家（忘带手机）或忘带眼镜（看不清上错线路）或正常到公司；

而家到公司就可立马投入牛马状态，无需移动。

而强化学习需要有奖励，来引导当前任务的走向，同时也需对每一状态来进行判断，比如象棋，我们并不知道当前的步数的下一步会对结果有什么导向，所以我们需要知道每一刻的步数对未来的影响，而非仅当前的步数和未来的，这就引入了新的概念，马尔可夫决策过程。

马尔可夫决策过程

马尔可夫链：状态-->新状态

马尔可夫决策过程：状态-->动作-->-->新状态

而动作基于什么？

基于策略，而策略的定义了在给定状态下，智能体选择动作的方式，可以是确定性的，也可以是随机的。

以象棋来举例，就是要获胜的最具性价比的走法（用最少的走子次数换取最大的胜率），而策略的成功不只看眼前，而要基于最大化长期累计奖励（期望回报）来学习到的，因为好的策略能在长期内带来最高的累积奖励（长期胜率最高）。

那么奖励是什么？

简单来说每一步的动作执行后，

吃子了 → +1
被吃子 → -1
胜利 → +100
失败 → -100
普通走子 → 0

因为一步并不能直接决定全局的胜负，所以它只能影响到当前这一步走完后对局势的变化，所以每一步仅作为对当前这步棋是好棋还是臭棋的判断，这就涉及到了奖励的积累，而在长期累计奖励后达到最终目标后，把 “未来奖励” 转换为 “现在价值” 的一个权重。如果 γ 接近 1，则未来和现在的奖励几乎同等；如果 γ小，则更重视即时奖励