前言:
本文算是个人笔记,如有不足或需要讨论的,欢迎交流,邮箱即QQ。
有大佬知道如何搭网络的(如多少层和每层多少个神经元等参数怎么调),求请教。。
封面:
了解DQN必须从Q-learning讲起。不过先说明一点,不论是DQN还是Qlearnging 都是基于值的方法,至于基于值和基于策略的区别,我打算放在最后末尾。(因为这不是我要讲的重点)
new4.jpgQ-learning简单介绍:
一言蔽之,以选取未来奖励(值)最大的动作为agent决策方法。
但值是以表格的形式给出(比如总列为状态,横列为动作),需要经过一定训练才能反映出准确的未来奖励,所以一般会设某个大小为ε的值作为随机选取的概率。
网友评论