美文网首页
今天中午吃什么-bandit算法

今天中午吃什么-bandit算法

作者: 神游物外的轮子 | 来源:发表于2020-10-29 17:36 被阅读0次

解决问题

参考帖子
赌场中多个老虎机,如何收益最大化

Thompson Sampling

假设每个臂的收益概率为p,进一步假设p概率分布符合beta(wins, lose)
通过beta分布生成的随机数大小,随机选出最大数对应的臂。有收益则wins+1,反之lose+1

# python实现的Thompson Sample
choice = numpy.argmax(pymc.rbeta(1 + self.wins, 1 + self.trials - self.wins))

UCB: Upper Confidence Bound

每个臂都试一次,然后选择\overline x_j(t)+\sqrt{\frac{2\ln t}{T_{j, t}}}公式最大值的臂
表达的含义是均值+标准差来均衡exploit和explore两方面

Epsilon-Greedy

选择(0,1)中较小值epsilon,每次做选择前抽取一个(0,1)的随机数e
如果e<epsilon,则随机选一个臂,否则选择目前平均收益最高的臂

朴素

先试几次,然后每次选择平均收益最高的臂

10000次遗憾模拟

相关文章

  • 今天中午吃什么-bandit算法

    解决问题 参考帖子[https://zhuanlan.zhihu.com/p/21388070]赌场中多个老虎机,...

  • 今天中午吃什么?

    今天中午吃什么? 我感觉这是好多大学生和工作人员的问题。大家思前想后迟迟没有答案,那我就用天气告诉你吧! ...

  • 今天中午吃什么

    “今天中午吃什么?”这个话题每天都把无数的青年男女搞得无比的郁闷,心慌,特别是已经在学校呆了这么久之后,才会知道这...

  • 今天中午吃什么。

    啥也不吃。

  • 今天中午吃什么

    昨天下午去西大望路天津卫视谈事,办完事又累又热又渴,溜进新光天地COSTA,要了一大杯热卡布奇诺,一屁股就坐了下来...

  • 今天中午吃什么?

    老婆喜欢吃我煮的鸡蛋面! 今天是星期天,早上起来有点迟,随便吃了点东西,就10点多了。到了中午11点多,老婆说中午...

  • 推荐系统陈开江 - C7 探索和利用

    1 MAB问题和Bandit算法 Bandit算法定义最大化收益解决冷启动和EE问题最小化累积遗憾,把选择的机会给...

  • Bandit:一种简单而强大的在线学习算法

    Bandit:一种简单而强大的在线学习算法模拟退火算法

  • 今天中午吃什么(一)

    ①海鲜饼:很软糯 里面包裹了虾仁 鱿鱼 海苔青菜 小葱 …… ②南瓜汤:吃一口海鲜饼再喝一口南瓜汤很美味 香甜暖胃...

  • Bandit 算法简介

    MAB的全称是 Multi-armed bandit problem(多臂老虎机问题)。它的背景是当赌场中有一排老...

网友评论

      本文标题:今天中午吃什么-bandit算法

      本文链接:https://www.haomeiwen.com/subject/wracvktx.html