美文网首页
强化学习

强化学习

作者: dingtom | 来源:发表于2020-03-06 11:42 被阅读0次

下一状态只与当前状态有关


R为之后的奖励和,我们的目标是使其最大化

Q-learning


初始化值表

用神经网络来逼近Q

q计算量太大


兼顾探索和利用
经验回放

状态间高度相关
玩多轮游戏把片段储存,训练时从若干轮若干片段抽取作为训练集


用另一个Q网络来作为L的预估值

每轮训练后让把训练好的networkQ(s, a)赋值给target networkQ\left(s^{\prime}, a^{\prime \prime}\right)
训练时只训练预估的network

相关文章

网友评论

      本文标题:强化学习

      本文链接:https://www.haomeiwen.com/subject/auvvrhtx.html