美文网首页
2018-06-14

2018-06-14

作者: deathneverdie | 来源:发表于2018-06-15 00:56 被阅读0次

    今天总结一下...论文的情况吧

    emmm最首先就是那个on-target samples和off-target samples的问题

    先来考虑一下什么是success的episode

    可能对于一个机器手的动作而言,碰到什么边界啥的算是一个失败的episode

    就像这张图画的那样

    红色边界可能就是失败的界限,在不触碰界限完成任务就是success的

    然而触碰之后,因为机械手臂是可以伸缩的----所以它是可以回退到上一个state的(或更靠前的状态)

    例如它在状态s1经过动作a1触碰到边界,这样state-action pair (s1,a1)就是 off-target ,而机械手臂又回退到状态s1,再在s1上进行动作a2,a3等等,直到某个状态动作对(sk,ak)完成了任务,我们就可以回退着找回去,(sk,ak)是很棒的,那么从哪里到的sk呢?sk-1就又找到了,那么sk-1的动作ak-1,也就是让sk-1到达sk的动作ak-1就是很棒的,(sk-1,ak-1)就是我们要找到on-target samples,而那些(sk-1,a')等等就是off-target samples。

    在一个成功的episode中,肯定能找到一个一条 the trajectory,所以...就这样吧  on,off target的问题解决了

    /////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

    其实上面那个问题吧...感觉跟我的论文关系也不是很大,不过搞明白总是好的

    至于我之前对于平台的疑问,家恒学长和黎叔都给出了解决方案?

    首先我们平台的命中率确实是和是否移动有关(和跑动还是走路没关)

    命中率和距离有关,伤害现在不清楚(但其实实在不行我也可以在代码里把血再加回来...这个问题不大的)

    这三点就保证了移动的必要性

    多Agent没必要...别人在做的

    更多的任务意味着更多的负担,这不是我想要的

    episode分级很好

    GNN!

    /////////////////////////////////////////////////////////

    大概就这样

    相关文章

      网友评论

          本文标题:2018-06-14

          本文链接:https://www.haomeiwen.com/subject/jbnueftx.html