Multi armed bandits 多臂老虎机
首先来定义模型(model):
个臂(arms):
,对每个臂
有
,其中
对参与人未知:
不失一般性,假设:
多臂老虎机问题的求解思想就是通过不断地尝试慢慢发现最好的臂
- 目标(Goal):找到最好的臂,这是
与
之间的权衡的优化
- 悔值最小化(Regret minimization):总共的奖励最小化
- 这里的
是 horizon,
是在时间
根据策略
选择行动
- 问题:
,最小化
等价于:
下面介绍 -Probably Approximate Correct(PAC)算法
目标:令 为由算法返回的臂,希望有:
均匀采样(uniform sampling)
- 拉每个臂
次
- 返回
这里指的是经验均值
场景1:
场景2:
正确性(Correctness):
Hoeffding's inequality
假设,彼此独立,则
所以根据 union bound,得:
当该事件发生时,令 ,有
采样复杂度(sample complexity):
lower bound:
Exploration-and-commit for regret minimization
算法:
- US 纯探索,参数为
和
(探索步 exploration step)
- 持续拉臂直到时间
(开发步 exploitation step)
分析:
total 悔值:
取
网友评论