bandit-stochastic bandit的UCB策略

作者: 三余寻真 | 来源:发表于2015-01-11 00:06 被阅读635次

对于stochastic bandit问题，我们有K个arm X_1,...,X_K，每拨动一个arm i所产生的reward服从分布P_i，则在进行n-1步之后，要如何进行第n步的选择呢？是选择迄今为止被拨动次数较少的arm，以此来提高它的reward均值的可信度呢，还是选择迄今为止reward均值最大的arm呢？前者称为exploration(探索)，后者称为exploitation(开发)，bandit问题可以认为是如何在探索和开发之间权衡的问题。

和做研究类似，在我们准备投入精力到某个研究方向(找到最优的arm)之前，我们应该进行探索，各个方向都了解一些，但也不能总是各个方向的探索，总要在了解到一定程度之后，盯着目前看起来最有希望的问题(样本均值最大)集中精力研究。

假设在决定第n步的选择时，arm i已被拨动了n_j次。由之前[数学基础-均值估计]文章中最后提到的Chernoff-Hoeffding界，其中不等式右侧的指数刻画了概率，左侧的t表示样本均值和实际均值之间的差，即在一定概率(1-右侧指数，与n_j,t_j有关，定理中的n为这里的n_j)上，实际均值落在以样本均值为中心、边长为t_j的区间内。如果令“一定概率”对所有的arm相同，特别地取1/n^4(不仅对所有arm都相同，同时随步骤n越来越精确)，可以解出t_j，即置信区间的长度，与n_j成反比，我们选取这个置信区间的上界(Upper Confidence Bound)作为对实际均值的估计，在这样的估计下选取最大的arm。具体地

UCB Strategy

在这种策略下，最后可以得到几乎最优的regret估计，其他对stochastic bandit问题的研究大部分都是这种最简单的UCB策略的变形。

网友评论

三余寻真:@鹏抟九万可以这样去理解，如果有一个arm被pull的次数特别少，那么我们更倾向于pull它，而在大家被pull的次数差不多时，我们更倾向于pull那个目前均值最大的arm，而如何把这种“倾向”用统一的标准表达，就是exploration和exploitation的tradeoff，你可以看下想要最优化那个式子，表达的就是这个意思
鹏抟九万:可不可以这样理解：exploration和exploitation本来就是两类不同的事情，很难比较熟优熟劣。现在的方法是把二者转换到一个置信区间上去比较？

本文标题：bandit-stochastic bandit的UCB策略

本文链接：https://www.haomeiwen.com/subject/hmofxttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

bandit-stochastic bandit的UCB策略

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

用得着

机器学习与模式识别