美文网首页
贝尔曼方程(Bellman Equation)的解读

贝尔曼方程(Bellman Equation)的解读

作者: 一碗好吃的乌冬面 | 来源:发表于2018-11-25 18:51 被阅读0次

    贝尔曼(Bellman)算法

    (又名最短路径算法)

    这篇文章还在更新,稍等,人工智能涉及到的东西太多了一点点讲不完

    贝尔曼(Bellman)算法的重要概念

    这个算法只适用于没有变化的环境
    V(s) = max_{\alpha}(R(s,a)+{\gamma}V({s}'))

    在解释下面几个专业术语前
    我先来说一下这个Agent,中文的意思是 代理,代理人
    但是实际上他大概表示的意思就相当于变量,就给你某一个状态贴上了一个标签一样


    • 状态(State):用一个数值来作为代理(Agent),描述在环境中某一特定时间点的状态
    • 行为(Action):代理(Agent)向环境提供的输入,通过对当前状态经行策略计算,然后采取行动
    • 奖励(Reward):来自环境的反馈信号,反映了代理(Agent)有没有有效地执行游戏目标

    专业术语解释

    • 状态(State)

    • 行为(Action):a是包含全部可能决策的一类集合,a(s)定义了可以在状态(state)s中执行的操作集。

    • 奖励(Reward)

    上面的s,a都是简写
    就相当于完整的公式是这样的
    V(State) = max_{\alpha}(R(State,Action)+{\gamma}V({State}'))

    把一个初始的状态值S 扔进这个括号里面V(s) 然后去求得他这个最大值等于多少max = ?然后把这个max又扔进下一次的V(s) S里面进行下一次的计算

    贝尔曼算法 贝尔曼算法1

    强化学习目标

    在给定我们当前所处的状态下,寻求最优解的行为,最大限度地提高环境所提供的长期预期回报

    动态编程

    一类算法
    寻求简化复杂问题
    把他们拆分成一个一个的子问题
    用递归的方法解决子问题(通过一个基底来调用他自己)

    帮助我们评估相对于每个状态的优势或者劣势所带来预期回报

    贝尔曼(Bellman)算法,方程(相对于对于确定的环境)

    V(s) = max_{\alpha}(R(s,a)+{\gamma}V({s}'))

    超级马里奥

    \gamma

    伽马Tips

    • 通过优化这个超参数以获得最佳结果是非常重要的
    • 成功值在0.9到0.99之间
    • 一个较低的值鼓励它短期思考
    • 一个更高的值着重长期的回报

    相关文章

      网友评论

          本文标题:贝尔曼方程(Bellman Equation)的解读

          本文链接:https://www.haomeiwen.com/subject/ujqeqqtx.html