MAB 简介

作者: 朱小虎XiaohuZhu | 来源:发表于2018-07-26 15:36 被阅读87次

MAB 简介
MAB问题
关于Multi-Armed Bandit（MAB）问题及算法
【双mab】knight
MAB 课程总结
JavaBean和Map直接转换，方便封装RequestPara
POS终端MAC的算法
Bandit 算法简介
免费下载文档、听音乐、看电影
推荐系统陈开江 - C7 探索和利用

Multi armed bandits 多臂老虎机

首先来定义模型（model）：

$n$ 个臂（arms）： $1,...,n$ ，对每个臂 $i$ 有 $\mathscr{D}_i$ ，其中 $\mathscr{D}_i \in [0,1]$ 对参与人未知：

$\mu_i = \mathbb{E} \mathscr{D}_i$

不失一般性，假设： $\mu_1\geq \mu_2 \geq \mu_3 \geq \cdots \geq \mu_2$

多臂老虎机问题的求解思想就是通过不断地尝试慢慢发现最好的臂

目标（Goal）：找到最好的臂，这是 $\# \text{pulls}$ 与 $P[\text{return the (correct) best arm}]$ 之间的权衡的优化
悔值最小化（Regret minimization）：总共的奖励最小化
$\text{Reg}_\pi (T) = \mathbb{E} \sum_{i=1}^{T}(\mu_1 - \mu_{i_t})$
这里的 $T$ 是 horizon， $\mu_{i_t}$ 是在时间 $t$ 根据策略 $\pi$ 选择行动
问题： $x_t \sim \mathscr{D}_{i_t}$ ，最小化 $\mathbb{E} \sum_{t} x_t$ 等价于：
$\text{minimize}~ \mathbb{E} \sum_{t} (\mu_1 - x_t) = \mathbb{E} \sum_t (\mu_1 - \mu_{i_t})$

下面介绍 $(\varepsilon \text{-}\delta)$ -Probably Approximate Correct（PAC）算法

目标：令 $j$ 为由算法返回的臂，希望有：
$Pr[\mu_i - \mu_j \leq \varepsilon] \geq 1 - \delta$

均匀采样（uniform sampling）

拉每个臂 $\frac{4 \ln n/\delta}{\varepsilon^2}$ 次
返回 $\arg\max_{i\in[n]} \{\hat{\mu_i}\}$
这里 $\hat{}$ 指的是经验均值

场景1： $\mu_1 = 0.9, \mu_2 = 0.89999$
场景2： $\mu_1 = 0.9, \mu_2 = 0.5$

正确性（Correctness）：
$Pr[|\mu - \hat{\mu}| \leq \frac{\varepsilon}{2}] \geq 1- \exp(-2 \frac{\varepsilon^2}{2} \frac{4\ln \frac{n}{\delta}}{\varepsilon^2}) = 1 - 2 \frac{\delta^2}{n^2}$

Hoeffding's inequality
假设 $x_1,x_2,...,x_n \in [0,1]$ ，彼此独立，则
$Pr[\frac{1}{n} \Big| \sum_{i=1}^{n} x_i - \mathbb{E} \sum_{i=1}^{n} x_i\Big| > \gamma] \leq 2\exp(-2\gamma^2 n)$

所以根据 union bound，得：
$Pr[\forall i \in [n], \mu_i \in \hat{\mu_i} \pm \frac{\varepsilon}{2}] \geq 1 - 2 \frac{\delta^2}{n}$

当该事件发生时，令 $j=\arg\max_{i} \{\hat{\mu_i}\}$ ，有
$\mu_j \geq \hat{\mu_j} - \frac{\varepsilon}{2} \geq \hat{\mu_1} - \frac{\varepsilon}{2} \geq \mu_1 - \frac{\varepsilon}{2}- \frac{\varepsilon}{2} = \mu_1- \varepsilon$

采样复杂度（sample complexity）： $\mathcal{O}(\frac{n}{\varepsilon^2} \ln \frac{n}{\delta})$
lower bound： $\mathcal{O}(\frac{n}{\varepsilon^2} \ln \frac{1}{\delta})$

Exploration-and-commit for regret minimization

算法：

US 纯探索，参数为 $\varepsilon$ 和 $\delta = \frac{1}{T}$ （探索步 exploration step）
持续拉臂直到时间 $T$ （开发步 exploitation step）

分析：

$\text{Regret}_{phase1} \leq \frac{4 \ln (nT) n}{\varepsilon^2}$

$\text{Regret}_{phase2} \leq (T-\frac{4\ln (nT) n}{\varepsilon^2}) \varepsilon + Pr[\text{step 1 failed}]\cdot T \leq T \cdot \varepsilon + 1$

total 悔值： $\frac{4n\ln(nT)}{\varepsilon^2}+T \varepsilon + 1$
取 $\varepsilon = \Big(\frac{n\ln(nT)}{T}\Big)^{1/3}$
$\text{Regret}_{\text{total}} \leq \mathcal{O}(n^{1/3}T^{2/3}\ln^{1/3}(nT))$

$\text{Regret}_{\text{average}} : \mathcal{O}(\frac{n \ln(nT)}{T})^{1/3}$

MAB 简介
Multi armed bandits 多臂老虎机首先来定义模型（model）：个臂（arms）：，对每个臂 ...
MAB问题
##Optimal Exploration-Exploitation in a Multi-Armed-Bandi...
关于Multi-Armed Bandit（MAB）问题及算法
MAB问题 Wiki定义地址：Multi-armed bandit - A Problem in which ...
【双mab】knight
OOC注意，非常口语化注意，作者更文不按基本法注意，童话AU注意这是我童话文本里的一个弃梗，世界观很大，可能会有...
MAB 课程总结
总论关于课程有四个大的部分商业战略企业管理市场营销会计谈判 1商业战略商业策略有两类企业战略2 经...
JavaBean和Map直接转换，方便封装RequestPara
通过反射的方式比通过转json再转的方式耗时少很多，代码如下 mab转换为bean
POS终端MAC的算法
将欲发送给POS中心的消息中，从消息类型(MTI)到63域之间的部分构成Mac Element Block(MAB...
Bandit 算法简介
MAB的全称是 Multi-armed bandit problem（多臂老虎机问题）。它的背景是当赌场中有一排老...
免费下载文档、听音乐、看电影
1、冰点冰点文库下载器。可以自由下载百度，豆丁，道客巴巴，丁香，畅享网，it68，mbalib，mab.book...
推荐系统陈开江 - C7 探索和利用
1 MAB问题和Bandit算法 Bandit算法定义最大化收益解决冷启动和EE问题最小化累积遗憾，把选择的机会给...