策略指的是主体的行为,是一个从状态集合到动作集合的映射。
强化学习的目的就是找到一个最佳的策略,从而使得主体发出一系列的动作后,收到的累积回报最多。
阿尔法狗由策略网络、估值网络、快速走子网络、蒙特卡罗树搜索四部分组成。
策略指的是主体的行为,是一个从状态集合到动作集合的映射。
强化学习的目的就是找到一个最佳的策略,从而使得主体发出一系列的动作后,收到的累积回报最多。
阿尔法狗由策略网络、估值网络、快速走子网络、蒙特卡罗树搜索四部分组成。
本文标题:《人工智能基础》25/91天阅读
本文链接:https://www.haomeiwen.com/subject/ovyqcqtx.html
网友评论