探索和利用

作者: Rain师兄 | 来源:发表于2021-07-29 05:00 被阅读0次

探索和利用
探索or利用
强化学习基础篇（三十五）探索与利用（Exploration an
探索知识有效组织和利用
《跃迁》【之我见】-20190318
Dr.魏保护孩子的好奇心
摘要
《认知与设计——理解UI设计准则》（第二版）笔记三
认识相对宇宙
中国航天

假设有两台bandit，简化成只需要拉杆就能玩，结果只有胜利和失败，胜利为1，失败为2。

事先并不知道每台机器的实际胜率，所以只能不断的玩来评估。一开始玩哪一台都一样，胜率都为0，假设我玩第一台，输了。第二次选择玩第二台就很合理。假设玩第二台我赢了，这个时候第一台胜率为0，第二台为100%。这个时候合理的选择是玩第二台，假如之后一直玩第二台，然后一直输，无论如何第二台的胜率都是会高于第一台0。

如果是利用，则会选择最优的策略，也就是概率最大的，也就是选择玩第二台。达到收益最大化。

如果是探索，则应该有一定几率选到第一台，由此获得更多的数据，使得实验结果更加精确。

如果纯粹使用利用。那么得到的策略可能是次优的。

纯探索可能达不到收益最大化。

解决这个问题的算法：epsilon-greedy

应用到现实，可以做推荐系统，a/b测试。

实例:1.定义bandit类，拥有实际概率，和评估概率的self.拥有一个pull方法，返回值是布尔类型。

2.创建一个循环，循环执行算法

3.绘图

special point:求mean公式,推导。numpy各个函数的作用。

问问题，问傻问题也总好过不问。

乐观初值算法