美文网首页
深度强化学习(4) 优化算法设计

深度强化学习(4) 优化算法设计

作者: 数科每日 | 来源:发表于2022-02-07 12:13 被阅读0次

    本文主要内容来源于 Berkeley CS285 Deep Reinforcement Learning


    深度强化学习(3) 学习目标与评价方法 中, 我们介绍了强化学习(以下简称RL) 的目标和收益函数 J(\theta)。 有了收益函数, 我们就可以设计算法来优化Policy 了。

    对收益函数直接求微分

    收益函数,可以进一步写成积分的形式:

    收益函数

    求极值,第一个想法自然是写出微分, 然后就可以进行梯度下降了, 对上面式子求微分:

    image.png

    最终结果:

    image.png

    上面式子划线部分, 可以按照颜色, 对应到下图

    强化学习模式

    对应算法为:

    RL 算法

    相关文章

      网友评论

          本文标题:深度强化学习(4) 优化算法设计

          本文链接:https://www.haomeiwen.com/subject/suqmkrtx.html