美文网首页
为什么强化学习的探索策略是随机选择动作?

为什么强化学习的探索策略是随机选择动作?

作者: 小小何先生 | 来源:发表于2021-01-31 16:07 被阅读0次

  其实并不是说强化学习只有随机选择策略,而是一种解决办法而已。用来平衡探索和利用(trade off exploration and exploitation),这类问题是多臂老虎机中要解决的经典问题。

  目前主流的算法有:

  • Greedy strategy

  贪婪策略(greedy strategy),就是选择当前平均奖励最高的那个arm,但是这种贪婪策略就没有考虑探索,比如有两个arm,当选择了其中一个arm-1这次得到奖励1,而另一个arm-2奖励为0,之后依据贪婪策略就一直选择arm-1,但arm-1实际的奖励为1的概率为0.1arm-2奖励为1的概率0.9低呢?只不过刚好第一次被选中了而已,就很容易丢失掉探索,导致得到一个次优解。

  • \varepsilon-greedy

  而\varepsilon-greedy方式说的是以一个\varepsilon概率随机选择arm,而1-\varepsilon概率选择greedy策略,也就是选择当前平均奖励最高的那个arm。由此可以看出收敛率(多快找到最优的arm)会取决于\varepsilon。一旦找到最优的arm,之后就一直选择这个arm就可以了。

  对于这两种算法:

  • 如果\varepsilon 是个常量,time step足够大的话,Pr(a_{t} \neq a^{*}) \approx \varepsilon(近似随机选择的arm都会后悔regret),此时的期望累计遗憾值 Loss \approx \sum_{t=1}^{n} \varepsilon =O(n)(这里只需要其是线性的就可以)。
  • 如果 \varepsilon_{t} \propto 1/t,也就是随着time step增加,\varepsilon逐渐收敛。time step足够大的话,Pr(a_{t} \neq a^{*}) \approx \varepsilon_{t}=O(\frac{1}{t}),也就是说随着time step的增加,次优解会逐渐减少,此时的期望累计遗憾值 Loss \approx \sum_{t=1}^{n} \frac{1}{t} =O(log n)(这里只需要其是对数级的就可以)。

  当然还有基于UCB和贝叶斯的方法,展开来说就太多了,可以参考我以前的文章:求通俗解释下bandit老虎机是个什么东西?,有详细分析。

相关文章

网友评论

      本文标题:为什么强化学习的探索策略是随机选择动作?

      本文链接:https://www.haomeiwen.com/subject/djxjahtx.html