1. 提升收敛速度
- PG中,使用ε-greedy来跳出局部最优,效率较低。
灵感:在若干(如1k)episode中比较τ的相似性和G(τ)的提升率,如确定接近某局部最优则保存该轨迹后作为黑名单。 - 奖励设置较为困难。
灵感:为什么人类学习如此之快?因为有先验。给agent设置一定通用先验,应有效。如避死与合作的平衡(单RL下提升避死优先级),积极符号与消极符号的辨别,不同符号之间的因果关系。
进一步的,人类从历史中学习经验、规划未来,终极的agent也应如是。reward应当由agent的原始动机出发,由和环境互动的经验中生成。
人类中历史中总结的经验,也可称为历史事件的意义,通常用来定义三观,何为正义、道德、美好。这些同样应由agent自行寻找,形成自己的reward后,再根据环境形成策略。或者说两者不断互相更新。总之,reward不应由“上帝”定死。
网友评论