美文网首页
MAB 简介

MAB 简介

作者: 朱小虎XiaohuZhu | 来源:发表于2018-07-26 15:36 被阅读87次

Multi armed bandits 多臂老虎机

首先来定义模型(model):

n 个臂(arms):1,...,n,对每个臂 i\mathscr{D}_i,其中 \mathscr{D}_i \in [0,1] 对参与人未知:

\mu_i = \mathbb{E} \mathscr{D}_i

不失一般性,假设:\mu_1\geq \mu_2 \geq \mu_3 \geq \cdots \geq \mu_2

多臂老虎机问题的求解思想就是通过不断地尝试慢慢发现最好的臂

  • 目标(Goal):找到最好的臂,这是 \# \text{pulls}P[\text{return the (correct) best arm}] 之间的权衡的优化
  • 悔值最小化(Regret minimization):总共的奖励最小化
  • \text{Reg}_\pi (T) = \mathbb{E} \sum_{i=1}^{T}(\mu_1 - \mu_{i_t})
  • 这里的 T 是 horizon,\mu_{i_t} 是在时间 t 根据策略 \pi 选择行动
  • 问题:x_t \sim \mathscr{D}_{i_t},最小化 \mathbb{E} \sum_{t} x_t 等价于:
  • \text{minimize}~ \mathbb{E} \sum_{t} (\mu_1 - x_t) = \mathbb{E} \sum_t (\mu_1 - \mu_{i_t})

下面介绍 (\varepsilon \text{-}\delta)-Probably Approximate Correct(PAC)算法

目标:令 j 为由算法返回的臂,希望有:
Pr[\mu_i - \mu_j \leq \varepsilon] \geq 1 - \delta

均匀采样(uniform sampling)

  1. 拉每个臂 \frac{4 \ln n/\delta}{\varepsilon^2}
  2. 返回 \arg\max_{i\in[n]} \{\hat{\mu_i}\}
    这里 \hat{} 指的是经验均值

场景1:\mu_1 = 0.9, \mu_2 = 0.89999
场景2:\mu_1 = 0.9, \mu_2 = 0.5

正确性(Correctness):
Pr[|\mu - \hat{\mu}| \leq \frac{\varepsilon}{2}] \geq 1- \exp(-2 \frac{\varepsilon^2}{2} \frac{4\ln \frac{n}{\delta}}{\varepsilon^2}) = 1 - 2 \frac{\delta^2}{n^2}

Hoeffding's inequality
假设 x_1,x_2,...,x_n \in [0,1],彼此独立,则
Pr[\frac{1}{n} \Big| \sum_{i=1}^{n} x_i - \mathbb{E} \sum_{i=1}^{n} x_i\Big| > \gamma] \leq 2\exp(-2\gamma^2 n)

所以根据 union bound,得:
Pr[\forall i \in [n], \mu_i \in \hat{\mu_i} \pm \frac{\varepsilon}{2}] \geq 1 - 2 \frac{\delta^2}{n}

当该事件发生时,令 j=\arg\max_{i} \{\hat{\mu_i}\},有
\mu_j \geq \hat{\mu_j} - \frac{\varepsilon}{2} \geq \hat{\mu_1} - \frac{\varepsilon}{2} \geq \mu_1 - \frac{\varepsilon}{2}- \frac{\varepsilon}{2} = \mu_1- \varepsilon

采样复杂度(sample complexity)\mathcal{O}(\frac{n}{\varepsilon^2} \ln \frac{n}{\delta})
lower bound\mathcal{O}(\frac{n}{\varepsilon^2} \ln \frac{1}{\delta})


Exploration-and-commit for regret minimization

算法:

  1. US 纯探索,参数为 \varepsilon\delta = \frac{1}{T} (探索步 exploration step)
  2. 持续拉臂直到时间 T (开发步 exploitation step)

分析:

\text{Regret}_{phase1} \leq \frac{4 \ln (nT) n}{\varepsilon^2}

\text{Regret}_{phase2} \leq (T-\frac{4\ln (nT) n}{\varepsilon^2}) \varepsilon + Pr[\text{step 1 failed}]\cdot T \leq T \cdot \varepsilon + 1

total 悔值:\frac{4n\ln(nT)}{\varepsilon^2}+T \varepsilon + 1
\varepsilon = \Big(\frac{n\ln(nT)}{T}\Big)^{1/3}
\text{Regret}_{\text{total}} \leq \mathcal{O}(n^{1/3}T^{2/3}\ln^{1/3}(nT))

\text{Regret}_{\text{average}} : \mathcal{O}(\frac{n \ln(nT)}{T})^{1/3}

相关文章

  • MAB 简介

    Multi armed bandits 多臂老虎机 首先来定义模型(model): 个臂(arms):,对每个臂 ...

  • MAB问题

    ##Optimal Exploration-Exploitation in a Multi-Armed-Bandi...

  • 关于Multi-Armed Bandit(MAB)问题及算法

    MAB问题 Wiki定义 地址:Multi-armed bandit - A Problem in which ...

  • 【双mab】knight

    OOC注意,非常口语化注意,作者更文不按基本法注意,童话AU注意 这是我童话文本里的一个弃梗,世界观很大,可能会有...

  • MAB 课程总结

    总论 关于课程有四个大的部分 商业战略 企业管理 市场营销 会计 谈判 1商业战略 商业策略有两类 企业战略2 经...

  • JavaBean和Map直接转换,方便封装RequestPara

    通过反射的方式比通过转json再转的方式耗时少很多,代码如下 mab转换为bean

  • POS终端MAC的算法

    将欲发送给POS中心的消息中,从消息类型(MTI)到63域之间的部分构成Mac Element Block(MAB...

  • Bandit 算法简介

    MAB的全称是 Multi-armed bandit problem(多臂老虎机问题)。它的背景是当赌场中有一排老...

  • 免费下载文档、听音乐、看电影

    1、冰点 冰点文库下载器。可以自由下载百度,豆丁,道客巴巴,丁香,畅享网,it68,mbalib,mab.book...

  • 推荐系统陈开江 - C7 探索和利用

    1 MAB问题和Bandit算法 Bandit算法定义最大化收益解决冷启动和EE问题最小化累积遗憾,把选择的机会给...

网友评论

      本文标题:MAB 简介

      本文链接:https://www.haomeiwen.com/subject/rkubmftx.html