2018-05-25

作者: deathneverdie | 来源:发表于2018-05-26 00:19 被阅读0次

接着更接着更。。。

今天有不少收获

首先是有一篇AAAI2018的文章《Guiding Search in Continuous State-action Spaces by Learning an Action Sampler from Off-target Search Experience》

里面提到了一个方法，就是现在的做法是

这也是DDPG存在的问题，就是在将连续动作空间离散化的过程中，歇逼了

所以本文做的事情就是：既然你要用到一个针对每个state进行采样的行为取样器，而这个行为取样器的好坏对于我能否很好的完成任务影响很大，那我干脆就去学一下这个行为取样器呗，所以这篇文章用GAN学了一下行为取样器，好的，文章就出来了

那么我看可以做什么呢？

1. 因为对方用的是GAN，而GAN其实成本也是很高的--计算成本时间成本，所以我要看看有没有什么别的网络去做，适用范围可能小一些，但是效率高很多

2. 自己另起炉灶搞个新的

3. 挑刺

网友评论

本文标题：2018-05-25

本文链接：https://www.haomeiwen.com/subject/elzujftx.html

2018-05-25