美文网首页用得着机器学习与模式识别
bandit-stochastic bandit的UCB策略

bandit-stochastic bandit的UCB策略

作者: 三余寻真 | 来源:发表于2015-01-11 00:06 被阅读635次

    对于stochastic bandit问题,我们有K个arm X_1,...,X_K,每拨动一个arm i所产生的reward服从分布P_i,则在进行n-1步之后,要如何进行第n步的选择呢?是选择迄今为止被拨动次数较少的arm,以此来提高它的reward均值的可信度呢,还是选择迄今为止reward均值最大的arm呢?前者称为exploration(探索),后者称为exploitation(开发),bandit问题可以认为是如何在探索和开发之间权衡的问题。

    和做研究类似,在我们准备投入精力到某个研究方向(找到最优的arm)之前,我们应该进行探索,各个方向都了解一些,但也不能总是各个方向的探索,总要在了解到一定程度之后,盯着目前看起来最有希望的问题(样本均值最大)集中精力研究。

    假设在决定第n步的选择时,arm i已被拨动了n_j次。由之前[数学基础-均值估计]文章中最后提到的Chernoff-Hoeffding界,其中不等式右侧的指数刻画了概率,左侧的t表示样本均值和实际均值之间的差,即在一定概率(1-右侧指数,与n_j,t_j有关,定理中的n为这里的n_j)上,实际均值落在以样本均值为中心、边长为t_j的区间内。如果令“一定概率”对所有的arm相同,特别地取1/n^4(不仅对所有arm都相同,同时随步骤n越来越精确),可以解出t_j,即置信区间的长度,与n_j成反比,我们选取这个置信区间的上界(Upper Confidence Bound)作为对实际均值的估计,在这样的估计下选取最大的arm。具体地

    UCB Strategy

    在这种策略下,最后可以得到几乎最优的regret估计,其他对stochastic bandit问题的研究大部分都是这种最简单的UCB策略的变形。

    相关文章

      网友评论

      • 三余寻真:@鹏抟九万 可以这样去理解,如果有一个arm被pull的次数特别少,那么我们更倾向于pull它,而在大家被pull的次数差不多时,我们更倾向于pull那个目前均值最大的arm,而如何把这种“倾向”用统一的标准表达,就是exploration和exploitation的tradeoff,你可以看下想要最优化那个式子,表达的就是这个意思
      • 鹏抟九万:可不可以这样理解:exploration和exploitation本来就是两类不同的事情,很难比较熟优熟劣。现在的方法是把二者转换到一个置信区间上去比较?

      本文标题:bandit-stochastic bandit的UCB策略

      本文链接:https://www.haomeiwen.com/subject/hmofxttx.html