在强化学习的小游戏,迷宫找宝藏中,重要的是def step(self, action)这步。
在这步里边,让状态S不断更新,达到学习的目的。
反馈函数如果下一状态s_是红色方块运动到了椭圆形,则奖励为1,如果运行到了陷阱会惩罚-1,并且都结束此次寻宝,重新从起始点开始。
最主要的程序是RL_brain。
示意在强化学习的小游戏,迷宫找宝藏中,重要的是def step(self, action)这步。
在这步里边,让状态S不断更新,达到学习的目的。
反馈函数如果下一状态s_是红色方块运动到了椭圆形,则奖励为1,如果运行到了陷阱会惩罚-1,并且都结束此次寻宝,重新从起始点开始。
最主要的程序是RL_brain。
示意本文标题:2019-04-21派森学习第153天
本文链接:https://www.haomeiwen.com/subject/upyjgqtx.html
网友评论