老虎机官方网

2024-02-20 06:26:06 来源：网络

这篇回答节选自本人在知乎专栏上正在持续更新的一个系列文章的引子：

要了解MAB（multi-arm bandit），首先我们要知道它是强化学习(reinforcement learning)框架下的一个特例。至于什么是强化学习：

我们知道，现在市面上各种“学习”到处都是。比如现在大家都特别熟悉机器学习（machine learning）,或者许多年以前其实统计学习（statistical learning）可能是更容易听到的一个词。那么强化学习的“学习”跟其它这些“学习”有什么区别呢？这里自然没有什么标准答案，我给这样一个解释（也可见Sutton & Barto第二章引言）：在传统的机器学习中，主流的学习方法都是所谓的“有监督学习”（supervised learning），不管是模式识别，神经网络训练等等，你的分类器并不会去主动评价（evaluate）你通过获得的每个样本（sample）所进行的训练结果（反馈），也不存在主动选择动作（action）的选项（比如，可以选择在采集了一些样本之后去采集哪些特定的样本）。意思就是，在这些传统的机器学习方法中（实际上也包括其它无监督学习或者半监督学习的很多方法），你并不会动态的去根据收集到的已有的样本去调整你的训练模型，你的训练模型只是单纯被动地获得样本并被教育(instruct，作为对比，active learning主要就是来解决这一问题的）。

而强化学习主要针对的是在一个可能不断演化的环境中，训练一个能主动选择自己的动作，并根据动作所返回的不同类型的反馈（feedback），动态调整自己接下来的动作，以达到在一个比较长期的时间段内平均获得的反馈质量。因此，在这个问题中，如何evaluate每次获得的反馈，并进行调整，就是RL的核心问题。

这么讲可能还比较抽象，但如果大家熟悉下围棋的AlphaGo，它的训练过程便是如此。我们认为每一局棋是一个episode。整个的训练周期就是很多很多个epsiode。那么每个episode又由很多步（step）构成。

动作——指的就是阿法狗每步下棋的位置（根据对手的落子而定）

反馈——每一次epsiode结束，胜负子的数目。

显然，我们希望能找到一个RL算法，使得我们的阿法狗能够在比较短的epsisode数目中通过调整落子的策略，就达到一个平均比较好的反馈。当然，对这个问题来说，我们的动作空间（action space，即可以选择的动作）和状态空间（state space，即棋盘的落子状态）的可能性都是极其大的。因此，AlphaGo的RL算法也是非常复杂的（相比于MAB的算法来说）。

至于什么是MAB/老虎机问题：

我们先考虑最基本的MAB问题。如上图所示，你进了一家赌场，假设面前有 K 台老虎机（arms）。我们知道，老虎机本质上就是个运气游戏，我们假设每台老虎机 i 都有一定概率 p_i 吐出一块钱，或者不吐钱（概率1-p_i ）。假设你手上只有 T 枚代币（tokens），而每摇一次老虎机都需要花费一枚代币，也就是说你一共只能摇 T 次，那么如何做才能使得期望回报（expected reward）最大呢？

求通俗解释下bandit老虎机到底是个什么东西

看一看：>>查看更多你感兴趣的