接着更接着更。。。
今天有不少收获
首先是有一篇AAAI2018的文章《Guiding Search in Continuous State-action Spaces by Learning an Action Sampler from Off-target Search Experience》
里面提到了一个方法,就是现在的做法是
这也是DDPG存在的问题,就是在将连续动作空间离散化的过程中,歇逼了
所以本文做的事情就是:既然你要用到一个针对每个state进行采样的行为取样器,而这个行为取样器的好坏对于我能否很好的完成任务影响很大,那我干脆就去学一下这个行为取样器呗,所以这篇文章用GAN学了一下行为取样器,好的,文章就出来了
那么我看可以做什么呢?
1. 因为对方用的是GAN,而GAN其实成本也是很高的--计算成本 时间成本,所以我要看看有没有什么别的网络去做,适用范围可能小一些,但是效率高很多
2. 自己另起炉灶 搞个新的
3. 挑刺
网友评论