增强学习是机器学习的一种方法,不同于监督学习和非监督学习,加强学习试图模拟人与环境互动的方式,试图将这种在环境中互动反馈的“自然而然”的学习能力赋予机器。
它的基本设定很简单,
设想我们要训练一个智能生物(Agent),为了让它解决相应的问题,我们将它放在一个环境中(environment),智能生物会观察外在世界,做出行动(action),而环境将对它的行动进行相应的反馈,在模型中为了简化,称之为激励(reward)。
那么智能生物它在这个环境中生存要达到的目标就是最大化它能获得的激励。

累计期望收益最高
上面讲了智能生物的目标是为了最大化它能获得的激励,但是绝大部分和外界环境之间互动过程都是连续的,或者说是伴随着多个状态变化的。 agent对于环境做出的每个行为都会导致状态的变化,并伴随着相应的激励。 所以智能生物要考虑的不是一次性的最高收益,而是累计的期望收益。
这里,和经济学一样,在考虑未来的问题上,机器人同样有着效用的考虑,今天的一块钱要比明天的一块钱效用大,因此我们引入贴现因子gamma。所以累计期望收益为
Gt = Rt+1 +γRt+2 +γ2Rt+3+……
马尔可夫决策过程

马尔可夫决策过程
马尔可夫决策过程是模拟强化学习中行为-激励关系,以及状态变化的一个很有用的工具, 上图模拟了一个扫地机器人的决策过程。
机器人有两种状态,(即两种环境,或者说两种state){电量高,电量低},
机器人面对每种状态选择相应的行为,有相应的状态变化的概率,并且获得相应的收益,
如:
在电量高的情况下,机器人可以选择搜寻和等待, 机器人选择搜寻的话,有70%的概率会维持电量高的状态,并获得4的收益,有30%的概率变成电量低的状态,也将获得4的收益。
而机器人在电量低的情况下,可以选择搜寻、充电和等待,而它选择搜寻的情况下, 有20%的概率会维持电量低的状态,获得4的收益, 而有80%的概率,会导致电量用尽,需要人工介入,寻回充电,收益为-5。
这里需要介绍一个notation

这里指的的agent在状态s 的情况下采用a行为,状态变为s`,收益为r的概率,后续的贝尔曼方程要用到。
网友评论