Q-Learning 中需要建立一个 Q-table 用来查询每个state所对应的最好的action,但是当 state 空间很大时,如上百万的状态时,这个 Q 表会很大,建立表格和更新表格就很低效,所以有了 Deep Q-Learning 的方法,在DQN 中不会建立Q 表,但是会建立一个 Deep Q Neural Network 来计算每个 state 的每个 action 的近似 Q-values,这样也可以找到最优决策。
第一步要进行数据预处理,这样可以尽量减少数据量,只关注最重要的信息。
例如我们玩一个游戏,首先需要将一张彩色图像处理成灰阶,因为这个游戏中颜色没有提供有用信息,找到敌人不需要知道颜色,通过灰阶,可以将三个channel变成一个。
然后裁剪框架,比如屋顶在这里也没什么用,敌人不会跑到屋顶上。
再减小帧的大小,最后将四个子帧堆叠在一起。
这些都是为了减少数据量的准备。
学习资料:
https://www.freecodecamp.org/news/an-introduction-to-deep-q-learning-lets-play-doom-54d02d8017d8/
网友评论