美文网首页
对Policy gradient的总结

对Policy gradient的总结

作者: 何哀何欢 | 来源:发表于2020-07-17 15:13 被阅读0次

    policy gradient 其实就是 corssentropy \times V(s) 的平均数:

    corssentropy是加法,总和。这里需要每一项,所以就取一个平均值。

    • V(s) 好算,就是递减奖励累加,字面意思,一次完整过程中每一步得到的奖励,递减后累加起来。
    • corssentropy 更简单,就是为了能够倒推概率用的。
    • 取所有动作值的平均值,然后backward()

    其实虽然是调整policy,然而还是要用Q值去衡量的。

    缺点:每次优化的时候,是一个完整过程结束后,取了每一步的均值,所以有一个问题,如果最后结果很好,哪怕其中某步的动作很差,也会被当作好的动作来学习。所以通往最优解的道路上,可能充满了坎坷和艰辛,还需要大量的数据集。

    这篇有详解

    相关文章

      网友评论

          本文标题:对Policy gradient的总结

          本文链接:https://www.haomeiwen.com/subject/somdhktx.html