本文主要内容来源于 Berkeley CS285 Deep Reinforcement Learning
在深度强化学习(3) 学习目标与评价方法 中, 我们介绍了强化学习(以下简称RL) 的目标和收益函数 。 有了收益函数, 我们就可以设计算法来优化Policy 了。
对收益函数直接求微分
收益函数,可以进一步写成积分的形式:
收益函数求极值,第一个想法自然是写出微分, 然后就可以进行梯度下降了, 对上面式子求微分:
image.png最终结果:
image.png上面式子划线部分, 可以按照颜色, 对应到下图
强化学习模式对应算法为:
RL 算法
网友评论