美文网首页时间管理司马腾超级自控力学院
《人工智能基础》25/91天阅读

《人工智能基础》25/91天阅读

作者: 皮卡丘_83e1 | 来源:发表于2018-11-29 22:10 被阅读0次

    策略指的是主体的行为,是一个从状态集合到动作集合的映射。

    强化学习的目的就是找到一个最佳的策略,从而使得主体发出一系列的动作后,收到的累积回报最多。

    阿尔法狗由策略网络、估值网络、快速走子网络、蒙特卡罗树搜索四部分组成。

    相关文章

      网友评论

        本文标题:《人工智能基础》25/91天阅读

        本文链接:https://www.haomeiwen.com/subject/ovyqcqtx.html