美文网首页
深度强化学习(4) 优化算法设计

深度强化学习(4) 优化算法设计

作者: 数科每日 | 来源:发表于2022-02-07 12:13 被阅读0次

本文主要内容来源于 Berkeley CS285 Deep Reinforcement Learning


深度强化学习(3) 学习目标与评价方法 中, 我们介绍了强化学习(以下简称RL) 的目标和收益函数 J(\theta)。 有了收益函数, 我们就可以设计算法来优化Policy 了。

对收益函数直接求微分

收益函数,可以进一步写成积分的形式:

收益函数

求极值,第一个想法自然是写出微分, 然后就可以进行梯度下降了, 对上面式子求微分:

image.png

最终结果:

image.png

上面式子划线部分, 可以按照颜色, 对应到下图

强化学习模式

对应算法为:

RL 算法

相关文章

网友评论

      本文标题:深度强化学习(4) 优化算法设计

      本文链接:https://www.haomeiwen.com/subject/suqmkrtx.html