MAB问题

作者: Weiquan_ | 来源:发表于2018-01-20 23:38 被阅读0次

##Optimal Exploration-Exploitation in a Multi-Armed-Bandit Problem with Non-stationary Rewards

        在一个多重赌博机的匪徒(MAB)问题中,赌徒需要在每一场比赛中选择一个K手臂,每个手臂的特点是未知的奖励分配。奖励的实现只有在选择一只手臂时才被观察到,并且赌徒的目标是在某个给定的T期范围内使他的累计预期收益最大化。为此,赌徒需要获得武器(探索)的信息,同时优化即时奖励(开发);由于这种交易而支付的价格通常被称为遗憾,主要的问题是这个价格是多少可以作为地平线长度T的函数。当奖励分配没有改变时,已经广泛地研究了这个问题时间;这个假设支持对遗憾的锐利表征,但在实际环境中经常被违反。在本文中,我们关注的是一个MAB公式,它允许在广泛的时间不确定性的奖励,同时仍然保持数学的易处理性。我们通过建立可允许的奖励\变化的程度和最小可实现的遗憾之间的直接联系,来充分描述这类人与生物圈问题的(遗憾)复杂性。我们的分析将两个相当不相同的文献之间的关系:对抗和随机的MAB框架。

MAB简介:

        典型的情况是:赌博机有不止一个推臂,每个推臂的收益满足一定的统计分布,当赌徒推动其中一个推臂时,便能获得一定的报酬。明显,这个报酬是从推臂的相关分布派生的一个随机变量,而赌徒在最初无法得知推臂的报酬的分布情况。赌徒的目的是获得最大的收益。由于每次试验只能选择其中一个推臂,若赌徒选择其中某个推臂的次数达到一定值,那么就可以得出该推臂报酬对应的统计分布情况。同时,如果赌徒只使用其中某一个或者某几个推臂,那么他就减少了使用新的推臂的机会,而这些推臂以一定的概率可能具有更高的报酬。那么赌徒面临的问题是:选择已知报酬均值最高的推臂,来获得较高的报酬,或选择其他未知分布的推臂,以谋求获得可能存在的更高的报酬。这是选择已知推臂或未知推臂的两难问题。

        该问题由Robbins最早提出,它将多臂赌博机看做一个Agent的统计决策模型,将探索与利用的两难问题变为Agent在最优化决策的同时提升知识。

相关文章

  • MAB问题

    ##Optimal Exploration-Exploitation in a Multi-Armed-Bandi...

  • 关于Multi-Armed Bandit(MAB)问题及算法

    MAB问题 Wiki定义 地址:Multi-armed bandit - A Problem in which ...

  • MAB 简介

    Multi armed bandits 多臂老虎机 首先来定义模型(model): 个臂(arms):,对每个臂 ...

  • 推荐系统陈开江 - C7 探索和利用

    1 MAB问题和Bandit算法 Bandit算法定义最大化收益解决冷启动和EE问题最小化累积遗憾,把选择的机会给...

  • Bandit 算法简介

    MAB的全称是 Multi-armed bandit problem(多臂老虎机问题)。它的背景是当赌场中有一排老...

  • Bandit 推荐系统间探索与利益的均衡

    Bandit算法 该算法是为了解决MAB问题(多臂赌博机问题) 问题原形是,面对多个一样的老虎机,每个老虎机吐钱几...

  • 【双mab】knight

    OOC注意,非常口语化注意,作者更文不按基本法注意,童话AU注意 这是我童话文本里的一个弃梗,世界观很大,可能会有...

  • MAB 课程总结

    总论 关于课程有四个大的部分 商业战略 企业管理 市场营销 会计 谈判 1商业战略 商业策略有两类 企业战略2 经...

  • JavaBean和Map直接转换,方便封装RequestPara

    通过反射的方式比通过转json再转的方式耗时少很多,代码如下 mab转换为bean

  • POS终端MAC的算法

    将欲发送给POS中心的消息中,从消息类型(MTI)到63域之间的部分构成Mac Element Block(MAB...

网友评论

      本文标题:MAB问题

      本文链接:https://www.haomeiwen.com/subject/ctyxaxtx.html