下一状态只与当前状态有关
为之后的奖励和,我们的目标是使其最大化
Q-learning
初始化值表
用神经网络来逼近Q
计算量太大
兼顾探索和利用
经验回放
状态间高度相关
玩多轮游戏把片段储存,训练时从若干轮若干片段抽取作为训练集
用另一个网络来作为的预估值
每轮训练后让把训练好的network赋值给target network
训练时只训练预估的network
下一状态只与当前状态有关
为之后的奖励和,我们的目标是使其最大化
计算量太大
状态间高度相关
玩多轮游戏把片段储存,训练时从若干轮若干片段抽取作为训练集
每轮训练后让把训练好的network赋值给target network
训练时只训练预估的network
本文标题:强化学习
本文链接:https://www.haomeiwen.com/subject/auvvrhtx.html
网友评论