美文网首页
强化学习

强化学习

作者: 海洋_5ad4 | 来源:发表于2018-09-20 19:38 被阅读0次

16.1 任务与奖赏

学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)为最佳。
以种瓜为例,若将好瓜最为奖励,只有等我们收获西瓜时,我们才直到奖励的大小。但是种瓜过程中的一些动作(如施肥),并不能获得最终奖赏,仅能得到一个当前反馈(如瓜苗更加健壮了)。我们需要多次种瓜,在种瓜过程中摸索。然后总结出好的种瓜策略。将这个过程抽象出来,就是强化学习。


1.jpg

马尔可夫决策过程


2.jpg

策略有两种表示方法:

  1. 确定策略,在某个状态上采用固定的动作
  2. 随机策略,某个状态上采用的动作是概率分布
    奖赏


    3.jpg

策略的好坏由奖赏决定,强化学习任务中,学习目的就是就是找出能使长期累积奖赏最大化的策略。

16.2 K摇臂赌博机

模型
K摇臂赌博机有K个摇臂,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定概率吐出硬币,但这个概率赌徒并不知道。赌徒的目标是通过一定的策略最大化自己的奖赏,即获得最多的硬币。
仅探索法——将所有的尝试机会平均分配给每个摇臂,最后将每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计。
仅利用法——按下目前最优的摇臂,若有多个摇臂同为最优,则从中随机选取一个。
仅探索法可以很好的估计每个摇臂的奖赏,却会失去很多选择最优摇臂的机会;仅利用法则相反,它没有很好地估计摇臂期望奖励,很可能经常选不到最优摇臂。
探索和利用两者是矛盾的,由于尝试次数有限,加强一方则会削弱另一方,这就是强化学习面临的探索——利用窘境。一般我们会找出一个很好的折中,以达到奖赏最大。
ε-贪心
以ε的概率进行探索,以1-ε的概率进行利用。


4.jpg

上面是平均奖赏的两种计算方法,第二种只需要记录两个值,比较适合编程。


5.jpg
softmax(略)
对于多步强化学习任务,一种直接的办法就是将每个状态上动作的选择看作一个K摇臂赌博机问题,用强化学习任务的累积奖赏来代替K摇臂赌博机算法中的奖励函数,即可将赌博机算法用于每个状态。
局限:没有考虑强化学习任务马尔可夫决策过程的结构,忽视了决策过程之间的联系。

16.3 有模型学习

若学习任务中的四个要素都已知,即状态空间、动作空间、转移概率以及奖赏函数都已经给出,这样的情形称为“有模型学习”。假设状态空间和动作空间均为有限,即均为离散值,这样我们不用通过尝试便可以对某个策略进行评估。

16.3.1 策略评估

前面提到:在模型已知的前提下,我们可以对任意策略的进行评估(后续会给出演算过程)。一般常使用以下两种值函数来评估某个策略的优劣:
状态值函数V:V(x),即从状态x出发,使用π策略所带来的累积奖赏;
状态-动作值函数Q:Q(x,a),即从状态x出发,执行动作a后再使用π策略所带来的累积奖赏。

相关文章

网友评论

      本文标题:强化学习

      本文链接:https://www.haomeiwen.com/subject/qponnftx.html