美文网首页
2018-05-25

2018-05-25

作者: deathneverdie | 来源:发表于2018-05-26 00:19 被阅读0次

    接着更接着更。。。

    今天有不少收获

    首先是有一篇AAAI2018的文章《Guiding Search in Continuous State-action Spaces by Learning an Action Sampler from Off-target Search Experience》

    里面提到了一个方法,就是现在的做法是

    这也是DDPG存在的问题,就是在将连续动作空间离散化的过程中,歇逼了

    所以本文做的事情就是:既然你要用到一个针对每个state进行采样的行为取样器,而这个行为取样器的好坏对于我能否很好的完成任务影响很大,那我干脆就去学一下这个行为取样器呗,所以这篇文章用GAN学了一下行为取样器,好的,文章就出来了

    那么我看可以做什么呢?

    1. 因为对方用的是GAN,而GAN其实成本也是很高的--计算成本 时间成本,所以我要看看有没有什么别的网络去做,适用范围可能小一些,但是效率高很多

    2. 自己另起炉灶  搞个新的

    3. 挑刺

    相关文章

      网友评论

          本文标题:2018-05-25

          本文链接:https://www.haomeiwen.com/subject/elzujftx.html