美文网首页
RL学习中的灵感

RL学习中的灵感

作者: AntiGravity | 来源:发表于2023-02-09 20:30 被阅读0次

    1. 提升收敛速度

    1. PG中,使用ε-greedy来跳出局部最优,效率较低。
      灵感:在若干(如1k)episode中比较τ的相似性和G(τ)的提升率,如确定接近某局部最优则保存该轨迹后作为黑名单。
    2. 奖励设置较为困难。
      灵感:为什么人类学习如此之快?因为有先验。给agent设置一定通用先验,应有效。如避死与合作的平衡(单RL下提升避死优先级),积极符号与消极符号的辨别,不同符号之间的因果关系。
      进一步的,人类从历史中学习经验、规划未来,终极的agent也应如是。reward应当由agent的原始动机出发,由和环境互动的经验中生成。
      人类中历史中总结的经验,也可称为历史事件的意义,通常用来定义三观,何为正义、道德、美好。这些同样应由agent自行寻找,形成自己的reward后,再根据环境形成策略。或者说两者不断互相更新。总之,reward不应由“上帝”定死。

    相关文章

      网友评论

          本文标题:RL学习中的灵感

          本文链接:https://www.haomeiwen.com/subject/wnhhkdtx.html