美文网首页
探索和利用

探索和利用

作者: Rain师兄 | 来源:发表于2021-07-29 05:00 被阅读0次

假设有两台bandit,简化成只需要拉杆就能玩,结果只有胜利和失败,胜利为1,失败为2。

事先并不知道每台机器的实际胜率,所以只能不断的玩来评估。一开始玩哪一台都一样,胜率都为0,假设我玩第一台,输了。第二次选择玩第二台就很合理。假设玩第二台我赢了,这个时候第一台胜率为0,第二台为100%。这个时候合理的选择是玩第二台,假如之后一直玩第二台,然后一直输,无论如何第二台的胜率都是会高于第一台0。

如果是利用,则会选择最优的策略,也就是概率最大的,也就是选择玩第二台。达到收益最大化。

如果是探索,则应该有一定几率选到第一台,由此获得更多的数据,使得实验结果更加精确。

如果纯粹使用利用。那么得到的策略可能是次优的。

纯探索可能达不到收益最大化。

解决这个问题的算法:epsilon-greedy

应用到现实,可以做推荐系统,a/b测试。

实例:1.定义bandit类,拥有实际概率,和评估概率的self.拥有一个pull方法,返回值是布尔类型。

2.创建一个循环,循环执行算法

3.绘图

special point:求mean公式,推导。numpy各个函数的作用。

问问题,问傻问题也总好过不问。

乐观初值算法

设置一个大的估计均值,直接用贪婪策略。

ucb1算法

也是贪婪算法,不过加了一个递减函数。

相关文章

  • 探索和利用

    假设有两台bandit,简化成只需要拉杆就能玩,结果只有胜利和失败,胜利为1,失败为2。 事先并不知道每台机器的实...

  • 探索or利用

  • 强化学习基础篇(三十五)探索与利用(Exploration an

    强化学习基础篇(三十五)探索与利用(Exploration and Exploitation) 1、探索与利用简介...

  • 探索知识有效组织和利用

    最近因为想写点文章,所以在着手重新整理梳理微博微信和云笔记里存的各类文章,才发现自己积累了那么多东西,有严重的囤积...

  • 《跃迁》【之我见】-20190318

    《跃迁》【之我见】 高手的暗箱 利用规律,放大努力。站在巨人的肩膀上,利用已知去探索未知。利用科技和社会的支撑,实...

  • Dr.魏 保护孩子的好奇心

    1:尽量鼓励孩子去探索,好奇。 2:除了到外面去找新刺激之外,其实你也可以利用家里的熟悉场景和小道具,让孩子去探索...

  • 摘要

    生命,特别是超生命,想要探索所有可能的生物学和所有可能的进化方式。而它利用我们创造它们,因为这是唯一探索它们的途径...

  • 《认知与设计——理解UI设计准则》(第二版)笔记三

    Chapter Three我们探索和利用视觉结构 组织精练、具有结构化特点并遵从图形设计规则的信息,人们更容易理解...

  • 认识相对宇宙

    人类探索宇宙的步伐正在一步步加快中。人们充分利用各种手段并发挥人类的智慧和想象力探索并走向。目前推断,在银河系附近...

  • 中国航天

    航天又称空间飞行,是进入、探索、开发和利用太空以及地球以外天体各种活动的总称。主要包括航天技术,空间科学和空间应用...

网友评论

      本文标题:探索和利用

      本文链接:https://www.haomeiwen.com/subject/rlcxvltx.html