马尔可夫性
随机过程是一个很浅显的概念,是一个随机的现象随着时间的变化而随机进行演变的过程,比如气候,马尔可夫性说的是——当前状态 S_t 已经充分包含了所有会影响未来的信息,不需要再知道 S_{t-1}, S_{t-2}, … 的具体历史,即
当某一个时刻的状态只取决于上一时刻的状态,而与更早的历史状态无关,这个随机过程就被称为具有马尔可夫性质。
马尔可夫链
马尔可夫过程(Markov process)是具有马尔可夫性质(Markov property)的随机过程。 当时间和状态都是离散的情况下,这种过程被称为马尔可夫链(Markov chain)。
何为离散?何为连续?
拿时间举例,离散就是 t=1,2,3,4,5 这种一步步的状态,每次可以取一个单位如整数 1、2、3,而连续就是 t∈[0,+∞),可以取任意单位,整数分数小数等等如 1.3,2,3/4
核心概念:未来只取决于当前,而不取决于过去
这个意思就是说,过去的状态不重要,未来的状态只基于现在决定,即当前的状态就是之前状态之和的压缩,每个时刻的状态,S(t|s)就能够代表 S(t-1|s)这一个由当前状态到下一状态的一个演变过程就被称为马尔可夫链,
但是这个其实更偏向于规律发现,因为它并没有奖励的概念,仅有状态以及状态的变化,在马尔可夫链中,没有“动作/决策”概念,转移概率 P(St+1=s′∣St=s) 是固定不变的,所以看起来像是“自然演化”。
而强化学习的任务,需要“奖励”与“决策”,很明显我们没办法直接去使用马尔可夫链来优化训练强化学习模型,不过这并不代表马尔可夫链没有意义,它依然可以应用于如房价预测,天气预测等方面,因为马尔可夫链的核心是随机性的状态转移。
比如今天天气晴【当前状态】-->明天天气【晴或阴】
它受到当前天气影响,今天天气为晴天、那么明天天气有 80%概率会是晴天,今天天气为阴天,那么明天天气 20 概率是晴天,本身晴天阴天概率都是 50%,只不过受到现在天气的因素,从而影响到未来。
如图:我们以上班通勤举例,右边是转移概率矩阵,代表每步转移概率,你现在在哪”已经包含了所有会影响下一步的信息,今天怎么来的公司与昨天堵了多久,昨天是否请假都不影响。
现在在家需要从家到地铁口,但是依然没到公司,所以依然需要向着公司移动;
现在在地铁口,可能需要从地铁口到家(忘带手机)或忘带眼镜(看不清上错线路)或正常到公司;
而家到公司就可立马投入牛马状态,无需移动。
而强化学习需要有奖励,来引导当前任务的走向,同时也需对每一状态来进行判断,比如象棋,我们并不知道当前的步数的下一步会对结果有什么导向,所以我们需要知道每一刻的步数对未来的影响,而非仅当前的步数和未来的,这就引入了新的概念,马尔可夫决策过程。
马尔可夫决策过程
马尔可夫链:状态-->新状态
马尔可夫决策过程:状态-->动作-->-->新状态
而动作基于什么?
基于策略,而策略的定义了在给定状态下,智能体选择动作的方式,可以是确定性的,也可以是随机的。
以象棋来举例,就是要获胜的最具性价比的走法(用最少的走子次数换取最大的胜率),而策略的成功不只看眼前,而要基于最大化长期累计奖励(期望回报)来学习到的,因为好的策略能在长期内带来最高的累积奖励(长期胜率最高)。
那么奖励是什么?
简单来说每一步的动作执行后,
- 吃子了 → +1
- 被吃子 → -1
- 胜利 → +100
- 失败 → -100
- 普通走子 → 0
因为一步并不能直接决定全局的胜负,所以它只能影响到当前这一步走完后对局势的变化,所以每一步仅作为对当前这步棋是好棋还是臭棋的判断,这就涉及到了奖励的积累,而在长期累计奖励后达到最终目标后,把 “未来奖励” 转换为 “现在价值” 的一个权重。如果 γ 接近 1,则未来和现在的奖励几乎同等;如果 γ小,则更重视即时奖励
- γ 是平衡长期和短期利益的折扣因子,表示我们对“未来奖励”的信任程度:
- γ ≈ 1:更看重长期利益(比如象棋中牺牲一些子换后续胜利)
- γ ≈ 0:更看重眼前利益(比如只吃子不管后果)
而价值函数是用来评估某个状态或状态-动作组合“有多好”的函数。 它告诉我们:“如果从这个状态出发,按照某策略执行下去,长期来看能得到多少回报”。
价值函数有两种常见形式:
-
1. 状态价值函数 V(s) 站在局面 s 上,按策略 π 走下去,平均能拿到的折扣回报。
-
2. 动作价值函数 Q(s,a) 站在局面 s,先下特定一步 a,之后再按策略 π 走,平均能拿到的折扣回报。
- 状态价值 = 按策略加权平均所有动作价值;
- 动作价值 = 即时奖励 + 折扣后的下一状态价值按转移概率加权平均。
总结来说就是马尔可夫决策过程就是:策略指导行动,奖励提供反馈,价值函数衡量长期优劣。

