其实并不是说强化学习只有随机选择策略,而是一种解决办法而已。用来平衡探索和利用(trade off exploration and exploitation
),这类问题是多臂老虎机中要解决的经典问题。
目前主流的算法有:
- Greedy strategy:
贪婪策略(greedy strategy
),就是选择当前平均奖励最高的那个arm
,但是这种贪婪策略就没有考虑探索,比如有两个arm
,当选择了其中一个arm-1
这次得到奖励1
,而另一个arm-2
奖励为0
,之后依据贪婪策略就一直选择arm-1
,但arm-1
实际的奖励为1
的概率为0.1
比arm-2
奖励为1
的概率0.9
低呢?只不过刚好第一次被选中了而已,就很容易丢失掉探索,导致得到一个次优解。
-
-greedy:
而-greedy方式说的是以一个
概率随机选择
arm
,而概率选择
greedy
策略,也就是选择当前平均奖励最高的那个arm
。由此可以看出收敛率(多快找到最优的arm
)会取决于。一旦找到最优的arm,之后就一直选择这个arm就可以了。
对于这两种算法:
- 如果
是个常量,
time step
足够大的话,(近似随机选择的
arm
都会后悔regret
),此时的期望累计遗憾值(这里只需要其是线性的就可以)。
- 如果
,也就是随着
time step
增加,逐渐收敛。
time step
足够大的话,,也就是说随着
time step
的增加,次优解会逐渐减少,此时的期望累计遗憾值(这里只需要其是对数级的就可以)。
当然还有基于UCB和贝叶斯的方法,展开来说就太多了,可以参考我以前的文章:求通俗解释下bandit老虎机是个什么东西?,有详细分析。
网友评论