独家｜强化学习入门前必读：多臂老虎机问题全解析- 大数跨境

首页

独家｜强化学习入门前必读：多臂老虎机问题全解析

Tina讲出海

2025-08-30

137

导读：多臂老虎机模型是许多实际应用的基础。

  
   
    
     
      作者：Sarah Schürch
     
     
      翻译：周梓溢

     
     
      校对：赵茹萱
     
    
   
  
  
   
    
     
      
       本文约4200字，建议阅读12分钟
       本文介绍了多臂老虎机模型。

摘要：多臂老虎机模型（Multi-Armed Bandit, MAB）是强化学习领域中的基础模型之一，用于描述在不确定环境中如何平衡“探索”与“利用”之间的权衡，从而实现最优决策策略。本文通过通俗的类比方式解释MAB模型的基本原理与关键挑战，系统介绍了包括贪婪策略、ε-贪婪策略、乐观初始值等经典行动选择策略，并进一步对Q值估计的两种实现方式（样本平均法与增量更新法）进行了对比分析。理解多臂老虎机模型，有助于深入掌握强化学习在数据科学中的基本机制与应用思维。

关键词：多臂老虎机模型、强化学习、Q值估计、ε-贪婪算法、增量学习法

人工智能如何学习做出更好的决策，为什么您应该关心”探索“与”利用“？

当算法一开始一无所知，只能通过反复试验来学习时，如何做出明智的选择？
下面是强化学习中最简单但最重要的模型之一——多臂老虎机模型的全部内容：

多臂老虎机模型就像我们一样，是一种通过反复试验学习的简单模型。

我们将深入探讨为什么“尝试新方案（探索）”与“坚持已有效果（利用）”之间的抉择远比看起来复杂得多以及背后的原理如何影响人工智能、在线广告投放和 A/B 测试等实际应用场景。

ChatGPT 4o制作的多臂老虎机模型图

为什么理解这个概念很重要？

多臂老虎机模型引入了强化学习的核心困境之一：如何在不确定性下做出正确的决策。

它不仅与人工智能、数据科学和行为模型相关，还因为它反映了我们人类如何通过反复试验来学习。

机器通过反复试验学习的东西与我们人类凭直觉学习的东西并没有太大区别，要论最大的区别就是机器用数学优化的方式做到这一点。

让我们想象一个简单的例子：

我们站在老虎机前。这台机器有 10 个机械臂，每个机械臂都有未知的获奖机会。

有些机械臂提供更高的奖励，而另一些则提供较低的奖励。

我们可以随心所欲地拉动机械臂，但我们的目标是尽可能多地获胜。

这意味着我们必须找出哪个机械臂是最好的（=产生最多的利润的），然而我们从一开始就不知道它是哪一个。

这个例子不禁让我们想起日常生活中经常经历的事情：

我们经常尝试不同的策略，在某些时候，无论我们的目标是什么，我们都会选择给我们带来最多快乐、享受或者金钱等的那个。

在行为心理学中，这被称为“试错学习”。

或者我们也可以把这看作认知心理学中的“奖励学习”来理解：实验中的动物通过不断试探，逐步学会哪个拉杆能带来最多的食物奖励，从而形成偏好选择哪个拉杆。

现在回到多臂老虎机模型的概念：

多臂老虎机模型是不确定性下决策的入门内容，是理解强化学习的基石。

我在上一篇文章《强化学习入门：用 Python 构建 Q-Learning Agent》中详细介绍关于强化学习（RL）。但从本质上讲，强化学习是关于Agent学会通过反复试验做出正确决策，这是机器学习的一个子领域。Agent处于一个环境中，选择某些行动并因此获得奖励或惩罚。Agent的目标是制定一种战略（policy），以最大化提高长期整体效益。

所以我们得在多臂老虎机身上找出答案：

1.从长远来看，哪些机械臂值得？

2.我们什么时候应该进一步利用机械臂（“利用”）？

3.我们什么时候应该尝试新的机械臂（“探索”）？

最后两个问题直接将我们引向强化学习的核心困境：

强化学习的核心困境：探索与利用

你有没有坚持过一个好的选择？后来才发现有更好的？这就是“利用”战胜了“探索”。

这是通过经验学习的核心问题：

“探索”：我们尝试新事物以了解更多信息，或许会发现更好的东西。

“利用”：为了获得尽可能多的奖励，我们用到目前所学到的最丰富的信息。

这样做有什么问题？

我们永远不知道我们是否已经找到了最佳选择。

依靠我们所知道的选择目前奖励最高的机械臂，这称为“利用”。然而，如果我们过早地选择一个看似不错的机械臂，我们可能会忽略一个更好的选择。

尝试不同的或很少使用的机械臂会给我们带来新的信息。我们获得了更多的信息。这就是”探索“。我们可能会找到更好的选择，但也可能是更糟糕的选择。

这就是强化学习的核心困境。

图示由作者绘制

我们可以从中得出结论：

如果我们只是过早”利用“，我们可能会错过更好的机械臂（这里是机械臂 3 而不是机械臂 1）。然而，过多的”探索“也会导致总体产量降低（如果我们已经知道第 1 组很好）。

让我用非技术语言再次解释同样的事情（但有点简化）：

让我们想象一下我们知道有一家好餐厅。因为我们喜欢它，我们去这家餐厅已经有 10 年了。但是，如果拐角处有一个更好、更便宜的地方呢？我们从未尝试过？如果我们从不尝试新事物，我们就永远不会发现。

有趣的是，这个问题不仅在人工智能上出现，在心理学和经济学中也广为人知：

”探索“与”利用“的困境是在不确定性下决策的一个典型例子。

心理学家、诺贝尔奖获得者丹尼尔·卡尼曼和他的同事阿莫斯·特沃斯基表明，人们在面对不确定性时往往不会做出理性的决定。相反，我们倾向于依赖启发式，也就是所谓的“心理捷径”。

这些“心理捷径”通常反映习惯（=”利用“）或好奇心（=”探索“）。正是这种动态在多臂老虎机模型中也可见：

我们是否谨慎行事（=已知具有高奖励的机械臂）
我们是否冒着新的风险（=回报未知的新机械臂）？

为什么说这对强化学习很重要呢？

在强化学习（RL）中，我们无处不在地面临”探索“与”利用“之间的困境。

RL Agent必须不断决定是否应该坚持目前最有效的方法（=”利用“），或者应该尝试一些新的方法来发现更好的策略（=”探索“）。

您可以在推荐系统上看到这种权衡情况：我们应该继续向用户展示他们已经喜欢的内容，还是冒险推荐他们可能喜欢的新内容？

有哪些策略可以选择最佳机械臂？Action选择策略

Action选择策略决定了Agent在下一步中选择哪个臂。换句话说，它决定了Agent如何处理”探索“与”利用“的权衡问题。

以下每一种策略（包括policies/rules）都在回答一个简单的问题：当我们不确定什么是最优选择时，我们如何选择下一步动作？

策略 1 – 贪心策略（Greedy策略）

这是最简单的策略：我们总是选择预估奖励最高的机械臂（= 最高的 Q（a））。换句话说，始终选择现在看起来最好的。

这种策略的优点是短期内回报最大化，而且策略非常简单。

缺点是完全没有”探索“。Agent不会冒险尝试新事物，因为当前最优的决策总是获胜，因此可能会错过尚未发现的更优决策。

正式规则如下：

让我们看一个简化的例子：

想象一下，我们品尝了两家新的比萨店的餐品，认为第二家比萨店的餐品相当不错。从那时起，我们只品尝这家比萨店，尽管镇上还有其他六家比萨店我们从未尝试过。也许我们错过了镇上最好的披萨，但我们永远不会知道。

策略 2 – ε-Greedy策略：

我们不总是选择当前已知最优的选项，ε-Greedy策略引入了一定的随机性：

”探索“（尝试新事物）的概率是 ε。
”利用“（坚持当前最佳）的概率是 1-ε。

ε-Greedy策略故意将机会混合到决策中，因此策略是实用的，而且通常有效。

概率ε越高，”探索“发生的次数就越多。
概率ε越低，我们就越能”利用“我们已经知道的东西。

例如，如果 ε = 0.1，则有10% 的概率会发生”探索“，而 90% 的概率会发生”利用“。

ε-Greedy 策略的优点是易于实现并提供良好的基础性能。

缺点是选择合适的ε很困难：如果选择太大ε，就会进行大量”探索“，奖励损失可能太大。如果ε太小，则很少有”探索“。

我们继续使用餐厅的例子：

我们每次去餐厅前掷骰子，如果我们掷到 6 ，就会尝试一家新的餐厅；如果没有，我们就去经常去的那家餐厅。

策略 3 – 乐观初始值策略（Optimistic Initial Values）：

乐观初始值策略的关键在于所有机械臂的初始值 Q₀(a) 都被人为设定成一个偏高的值（例如 5.0 而非 0.0）。一开始，Agent假设所有选项都很好。这鼓励Agent去尝试一切（”探索“）。Agent想反驳高初始值。一旦尝试了某个机械臂，Agent就会发现它的价值较低，并向下调整估计值。

这种策略的优点是探索会自动发生。这尤其适用于奖励不变的确定性环境。

缺点是，如果奖励已经很高，则这种策略效果不佳。

如果我们再看一遍餐厅的例子，我们会在开头给每家新餐厅打 5 星。当我们尝试它们的餐品时，我们会根据真实体验调整评级。

简单来说，贪心策略（Greedy策略）是纯粹的习惯性行为。ε-Greedy策略是习惯和好奇心行为的混合体。乐观初始值策略（Optimistic Initial Values）类似于孩子最初认为每个新玩具都很好玩——直到他尝试过。

Agent如何判断哪些选项值得尝试：Q 值估计

为了让Agent做出正确的决策，它必须估计每个单独的机械臂有多好，并找出哪只机械臂将带来长期最高的回报。

但是，Agent不知道真正的奖励分配。

这意味着Agent必须根据经验估计每只机械臂的平均奖励。拉动机械臂的次数越多，这个估计就越可靠。

为此，我们使用估计值 Q（a）：

Q(a) ≈选择机械臂 a预期的平均回报。

我们的目标是让我们的估计值 Q_t（a）变得越来越准确，直到尽可能接近真实值 q_∗（a），在这个过程中，估计值会不断优化。

Agent希望从经验中学习，从长远来看，他的估计估值 Q_t（a）可以准确反映选择机械臂a 的平均利润。

我们再看看餐厅的简单示例：

我们想象我们想了解某个咖啡馆有多好。例如，每次我们去那里时，我们都会通过给咖啡馆 3、4 或 5 星评分来获得一些反馈。我们的目标是，评分的平均值最终将与我们无限次光顾咖啡馆时得到的实际平均值相匹配。

Agent计算此 Q 值有两种基本方法：

方法 1 – 样本平均法

样本平均法通过计算该机械臂已观测到的所有奖励的平均值来估计Q 值。实际上就像字面意思一样简单——观察该机械臂之前的所有奖励并计算平均值。

n：选择机械臂 a 的次数
R_i: 第 i 次奖励

样本平均法的优点是简单直观，对于稳定、静态的问题有良好的统计性质。

样本平均法的缺点是响应速度较慢，尤其是在非平稳环境中，条件会随着时间的推移而变化。

例如，想象一个音乐推荐系统：用户可能会突然修改了音乐风格偏好。用户以前更喜欢摇滚，但现在他们听爵士乐。如果系统对过去的所有偏好保持平均，那么系统对这种变化的反应非常缓慢。

同样，在多臂老虎机模型设置中，如果第 3 个机械臂从第 100 轮开始突然提供更高的奖励，那么运行平均值将太慢而无法反映这一点。早期数据仍然占主导地位并掩盖了最近的改善趋势。

方法 2 – 增量实现

在这里，Q 值会随着每个新奖励而立即调整——而不保存以前所有的数据：

α：学习率（0 < α ≤ 1）
R_n：第 n 次选择机械臂后实际获得的奖励
Q_n（a）：先前的估计值第 n 次对机械臂a的估计值
Q_n+1：第 n+1 次的更新估计值

如果环境稳定且奖励不变，则样本平均法效果最佳。但如果环境随着时间的推移而发生变化，采用具有恒定学习率α的增量方法可以适应得更快。

图示由作者绘制，插图取自unDraw.com

总结思考：我们需要它做什么？

多臂老虎机模型是许多实际应用的基础，例如推荐引擎或在线广告。

同时，它是进入强化学习的必经之路。它教会了我们一种心态：通过反馈学习，在不确定性下采取行动，平衡“探索”和“利用”。

从技术上讲，多臂老虎机模型是强化学习的一种简化形式：没有状态，没有未来规划，只有当前的即时奖励。其背后的决策逻辑，在更复杂的方法中反复出现，比如 Q-learning、策略梯度以及深度强化学习等。

原文标题：

Simple Guide to Multi-Armed Bandits: A Key Concept Before Reinforcement Learning

原文链接：

Simple Guide to Multi-Armed Bandits: A Key Concept Before Reinforcement Learning | Towards Data Science

编辑：王菁

校对：林亦霖

点击下方链接下单你的DATA心愿！

许愿池 | 向宇宙下单你的DATA心愿，下一个被“显化”的可能就是你！

欢迎大家扫码加入粉丝群

译者简介

作者简介

周梓溢，广州大学统计学在读学生，数据科学爱好者。在学习中时常翻阅数据科学英文文献，一直在学习的路上，希望在学习过程输出一些有意义的事情。很高兴加入数据派THU翻译组这个大家庭，期望与大家共同探索数据科学，一起「无限进步」！

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

点击“阅读原文”拥抱组织

【声明】内容源于网络

Tina讲出海

跨境分享间 | 每日提供跨境资讯

内容 0

粉丝 8

Tina讲出海跨境分享间 | 每日提供跨境资讯

总阅读0

粉丝8

内容0