美文网首页
Q-learning

Q-learning

作者: lojike | 来源:发表于2020-04-05 00:09 被阅读0次

    q-learning的步骤:

    1、初始化Q-table , Q(s,a)可以设为0

    2、定义初始状态state,s

    3、根据策略π选择动作action,a

    4、实施动作action,a

    5、计算实施动作a所获得的reward

    6、更新Q-table


    Q函数:学习动作值函数,返回某状态下执行某动作的未来期奖励望值

    使用Bellman方程来更新Q-table

    最终得到的是一个可以使用的Q-table

    因为初始值都为0,无法决策,可以引入探索机制

    相关文章

      网友评论

          本文标题:Q-learning

          本文链接:https://www.haomeiwen.com/subject/ibbephtx.html