美文网首页
Value-based Method

Value-based Method

作者: TonnyYan | 来源:发表于2018-09-22 14:57 被阅读8次

    Dynamic Programming

    假设我们知道状态转移概率p\left( {{\mathbf{s'}}|{\mathbf{s}},{\mathbf{a}}} \right)bootstrapped 更新:{V^\pi }\left( {\mathbf{s}} \right) \leftarrow {E_{{\mathbf{a}} \sim \pi \left( {{\mathbf{a}}{\text{|}}{\mathbf{s}}} \right)}}\left[ {r\left( {{\mathbf{s}},{\mathbf{a}}} \right) + \gamma {E_{{\mathbf{s'}} \sim p\left( {{\mathbf{s'}}{\text{|}}{\mathbf{s}},{\mathbf{a}}} \right)}}\left[ {{V^\pi }\left( {{\mathbf{s'}}} \right)} \right]} \right]
    确定性策略:
    {{\mathbf{a}}_t} = \arg {\max _{{{\mathbf{a}}_t}}}{A^\pi }\left( {{{\mathbf{s}}_t},{{\mathbf{a}}_t}} \right)
    \pi \left( {\mathbf{s}} \right) = {\mathbf{a}}
    简化:
    {V^\pi }\left( {\mathbf{s}} \right) \leftarrow r\left( {{\mathbf{s}},\pi \left( {\mathbf{s}} \right)} \right) + \gamma {E_{{\mathbf{s'}} \sim p\left( {{\mathbf{s'}}{\text{|}}{\mathbf{s}},\pi \left( {\mathbf{s}} \right)} \right)}}\left[ {{V^\pi }\left( {{\mathbf{s'}}} \right)} \right]

    NOTEQ^\pi(\mathbf{s},\mathbf{a})函数是评价在状态\mathbf{s_t}下采取不同动作\mathbf{a_t}好坏的函数 ,V^\pi(\mathbf{s})函数是评价当前状态\mathbf{s_t}的好坏,此时已经选取了一个\mathbf{a_t}了(动作\mathbf{a_t}已经确定了)。一般情况下\mathbf{a_t}是选当前策略的平均动作(average action),因此\mathbf{s_t}又可以定义为V^\pi(\mathbf{s}) = {E_{{\mathbf{a}} \sim \pi \left( {{\mathbf{a}}{\text{|}}{\mathbf{s}}} \right)}[Q^\pi(\mathbf{s},\mathbf{a})]}

    策略迭代

    策略迭代

    值迭代

    值迭代

    NOTE:其中值迭代算法的第二步就是在进行策略的更新,选取当前状态下可以获得最大收益的动作,由于该策略是确定性的\pi \left( {{\mathbf{a}}|{\mathbf{s}}} \right) = 1,因此,此时值函数的更新应该就是{\max _{\mathbf{a}}}Q\left( {{\mathbf{s}},{\mathbf{a}}} \right)。换句话说在值迭代算法中第二步值函数的更新就等价为是策略的更新。

    Question

    • 为什么说 Q-learningoff-policy
      因为Q-learning学习(近似)的是Q函数,因此在收集数据的时候,策略可以是任意的。

    • 为什么要在策略中加入探索?
      如果转移概率已知就不需要加入探索,直接采用原始值迭代算法即可。但是很多情况是转移概率分布不知道的,这时就需要使用样本去估计下一个状态的转移,因此这个时候如果探索的不充分,将导致较大的估计误差,最终使得我们估计出来的Q函数是次优的。

    • Fitted Q-iteration 能保证收敛吗?
      只要是拟合的Q迭代都不能保证收敛性。因为Q迭代算子是关于无穷范数(‘max’范数)的一个压缩,Q函数拟合算子则是关于l2范数的一个压缩,然而这两个算子同时作用时不是任何范数的压缩,因此收敛性不能保证。
      推而广之,任何同时用到Q函数拟合、Q迭代算子的地方,算法的收敛性都不能保证(e.g 使用了值函数的Actor-Critic算法)

    相关文章

      网友评论

          本文标题:Value-based Method

          本文链接:https://www.haomeiwen.com/subject/kfcxoftx.html