强化学习和监督学习的区别如下。
(1)强化学习处理的大多数是序列数据,其很难像监督学习的样本一样满足独立同分布。
(2)学习器并没有告诉我们每一步正确的动作应该是什么,学习器需要自己去发现哪些动作可以带来最多的奖励,只能通过不停地尝试来发现最有利的动作。
(3)智能体获得自己能力的过程,其实是不断地试错探索(trial-and-error exploration)的过程。
强化学习和监督学习的区别如下。
(1)强化学习处理的大多数是序列数据,其很难像监督学习的样本一样满足独立同分布。
(2)学习器并没有告诉我们每一步正确的动作应该是什么,学习器需要自己去发现哪些动作可以带来最多的奖励,只能通过不停地尝试来发现最有利的动作。
(3)智能体获得自己能力的过程,其实是不断地试错探索(trial-and-error exploration)的过程。
本文标题:Day 2240:学习
本文链接:https://www.haomeiwen.com/subject/bgxdrdtx.html
网友评论