贝尔曼(Bellman)算法
(又名最短路径算法)
这篇文章还在更新,稍等,人工智能涉及到的东西太多了一点点讲不完
贝尔曼(Bellman)算法的重要概念
这个算法只适用于没有变化的环境
在解释下面几个专业术语前
我先来说一下这个Agent,中文的意思是 代理,代理人
但是实际上他大概表示的意思就相当于变量,就给你某一个状态贴上了一个标签一样
- 状态(State):用一个数值来作为代理(Agent),描述在环境中某一特定时间点的状态
- 行为(Action):代理(Agent)向环境提供的输入,通过对当前状态经行策略计算,然后采取行动
- 奖励(Reward):来自环境的反馈信号,反映了代理(Agent)有没有有效地执行游戏目标
专业术语解释
状态(State):
行为(Action):a是包含全部可能决策的一类集合,a(s)定义了可以在状态(state)s中执行的操作集。
奖励(Reward):
上面的s,a都是简写
就相当于完整的公式是这样的
把一个初始的状态值S 扔进这个括号里面 然后去求得他这个最大值等于多少然后把这个又扔进下一次的 S里面进行下一次的计算
贝尔曼算法 贝尔曼算法1强化学习目标
在给定我们当前所处的状态下,寻求最优解的行为,最大限度地提高环境所提供的长期预期回报
动态编程
一类算法
寻求简化复杂问题
把他们拆分成一个一个的子问题
用递归的方法解决子问题(通过一个基底来调用他自己)
帮助我们评估相对于每个状态的优势或者劣势所带来预期回报
贝尔曼(Bellman)算法,方程(相对于对于确定的环境)
超级马里奥伽马Tips
- 通过优化这个超参数以获得最佳结果是非常重要的
- 成功值在0.9到0.99之间
- 一个较低的值鼓励它短期思考
- 一个更高的值着重长期的回报
网友评论