GOGOGO 上午天梯先送了50分 GG
SUTTON那本书先停一下,接着看论文
///////////////////////////////////////////////////////////
高斯分布:正态分布
论文中提到了两种处理办法:
1. 贪婪 就是有个参数e,有概率e随机探索,有概率(1-e)是采取当前最优的,e随时间下降
2. 高斯分布相关。
或者说是...emmm 它的探索空间是在当前最佳输出值附近?
因为Act(st)是说算法在st下给出的动作,也就是说算法认为这个Action是最佳的,而我们π(st,a)表示策略(意思应该是说在st下选择a的可能性吧 毕竟是个高斯分布)
(但是这种方法,太容易陷入一个局部最优了吧...比贪婪还容易陷入)
/////////////////////////////////////////////////////////////
论文的方法:CACLA
这个东西...前面那个是TD算法的..回头还得去看看
大致意思是如果在采取at使得st的值有积极变化,则增加st下选择at的概率,增加的部分从其他地方减。论文用的正反馈调节(他说在扩展到连续空间的时候用正反馈更有意义)
O98K这就是最大的区别,但是后面的公式和推导有很多不太懂的。。
///////////////////////////////////////////////////////////////////
哎,还是得回去看书 现在要看的是456 12
动态编程 蒙特卡洛 TD
但是3.6龙博说很重要 先看一下吧
网友评论