美文网首页
2018-05-05

2018-05-05

作者: deathneverdie | 来源:发表于2018-05-05 19:11 被阅读0次

    GOGOGO 上午天梯先送了50分  GG

    SUTTON那本书先停一下,接着看论文

    ///////////////////////////////////////////////////////////

    高斯分布:正态分布

    论文中提到了两种处理办法:

    1. 贪婪  就是有个参数e,有概率e随机探索,有概率(1-e)是采取当前最优的,e随时间下降

    2. 高斯分布相关。

    或者说是...emmm 它的探索空间是在当前最佳输出值附近?

    因为Act(st)是说算法在st下给出的动作,也就是说算法认为这个Action是最佳的,而我们π(st,a)表示策略(意思应该是说在st下选择a的可能性吧  毕竟是个高斯分布)

    (但是这种方法,太容易陷入一个局部最优了吧...比贪婪还容易陷入)

    /////////////////////////////////////////////////////////////

    论文的方法:CACLA

    这个东西...前面那个是TD算法的..回头还得去看看

    大致意思是如果在采取at使得st的值有积极变化,则增加st下选择at的概率,增加的部分从其他地方减。论文用的正反馈调节(他说在扩展到连续空间的时候用正反馈更有意义)

    O98K这就是最大的区别,但是后面的公式和推导有很多不太懂的。。

    ///////////////////////////////////////////////////////////////////

    哎,还是得回去看书  现在要看的是456 12

    动态编程 蒙特卡洛 TD 

    但是3.6龙博说很重要 先看一下吧

    相关文章

      网友评论

          本文标题:2018-05-05

          本文链接:https://www.haomeiwen.com/subject/cnqerftx.html