美文网首页时间管理司马腾超级自控力学院
《人工智能基础》25/91天阅读

《人工智能基础》25/91天阅读

作者: 皮卡丘_83e1 | 来源:发表于2018-11-29 22:10 被阅读0次

策略指的是主体的行为,是一个从状态集合到动作集合的映射。

强化学习的目的就是找到一个最佳的策略,从而使得主体发出一系列的动作后,收到的累积回报最多。

阿尔法狗由策略网络、估值网络、快速走子网络、蒙特卡罗树搜索四部分组成。

相关文章

网友评论

    本文标题:《人工智能基础》25/91天阅读

    本文链接:https://www.haomeiwen.com/subject/ovyqcqtx.html