对于stochastic bandit问题,我们有K个arm X_1,...,X_K,每拨动一个arm i所产生的reward服从分布P_i,则在进行n-1步之后,要如何进行第n步的选择呢?是选择迄今为止被拨动次数较少的arm,以此来提高它的reward均值的可信度呢,还是选择迄今为止reward均值最大的arm呢?前者称为exploration(探索),后者称为exploitation(开发),bandit问题可以认为是如何在探索和开发之间权衡的问题。
和做研究类似,在我们准备投入精力到某个研究方向(找到最优的arm)之前,我们应该进行探索,各个方向都了解一些,但也不能总是各个方向的探索,总要在了解到一定程度之后,盯着目前看起来最有希望的问题(样本均值最大)集中精力研究。
假设在决定第n步的选择时,arm i已被拨动了n_j次。由之前[数学基础-均值估计]文章中最后提到的Chernoff-Hoeffding界,其中不等式右侧的指数刻画了概率,左侧的t表示样本均值和实际均值之间的差,即在一定概率(1-右侧指数,与n_j,t_j有关,定理中的n为这里的n_j)上,实际均值落在以样本均值为中心、边长为t_j的区间内。如果令“一定概率”对所有的arm相同,特别地取1/n^4(不仅对所有arm都相同,同时随步骤n越来越精确),可以解出t_j,即置信区间的长度,与n_j成反比,我们选取这个置信区间的上界(Upper Confidence Bound)作为对实际均值的估计,在这样的估计下选取最大的arm。具体地
UCB Strategy在这种策略下,最后可以得到几乎最优的regret估计,其他对stochastic bandit问题的研究大部分都是这种最简单的UCB策略的变形。
网友评论