书名:计算机视觉40例从入门到深度学习:OpenCV-Python
作者:李立宗
出版社:电子工业出版社
出版时间:2022-07-01
ISBN:9787121436857
第15章 机器学习导读
15.2 机器学习基础概念
15.2.1 机器学习的类型
四、强化学习
1、定义
- 强化学习
又称增强学习,它在解决问题时不断地实践,在实践中探索尝试,然后总结出较好的策略。
将上述过程抽象出来就是强化学习。
该过程和传统方法中人类的做法是一致的,只不过这个过程是由机器完成。
2、强化学习策略
-
强化学习追求的是解决方案的一系列操作序列。
如果一个动作存在于一个好的操作序列中,那么就认为该操作是好的操作。
机器学习通过评估一个策略的优劣并从既往的好的操作序列中学习,来产生一个好的策略。 -
例如,在围棋中,单个动作本身并不重要,正确的布局、整体的动作序列才是关键。如果一个落子是一个好的策略的一部分,那么它就是好的。阿尔法围棋通过分析数百万场比赛,以及自己与自己比赛,来了解获胜策略。
3、强化学习的应用
- 强化学习有一个广泛应用是寻址。
例如,机器人在某一特定时刻朝着多个方向中的一个方向运动,经过多次尝试,该机器人会找到一个正确的动作序列,该动作序列确保能够从初始位置到达目标位置,并且不会碰撞障碍物。
机器人可以观察环境,选择并执行相应的动作,从而获得反馈。
如果该动作是正向的,那么将会获得奖励;如果该动作是负面的,那么将会获得惩罚。
根据该反馈,机器人学习到什么是好的策略,并随着时间推移获得最大的奖励。 -
图15-10所示为一个寻址机器人的反馈策略,选择向左走后距离目标更近,获得奖励;选择向右走后距离目标更远,受到惩罚。
图15-10 寻址机器人的反馈策略
4、最优
-
需要强调的是,通常要等到本轮工作完成后,才能知道最后寻址的优劣。
如果将最短路径作为寻址的奖励,那么一次路径选择显然不能立即得到最终奖励。
一般情况下,一次路径选择只能得到一个当前的正反馈(距离目标更近了),不代表该选择一定在最优路线内。
例如,图15-11显示了图15-10的全景图。寻址机器人选择向左虽然距离目标更近了,但是马上会遇到障碍物,因此向左并不是最优路径选择。
简单来说,寻址机器人只有进行多次尝试,才能总结出最好的路径。这和下象棋时丢车保帅的策略是一致的。
当前一个表面看起来可能并不优的选择,实际上对应着一个最优的结果。
图15-11 图15-10的全景图
网友评论