美文网首页
强化学习

强化学习

作者: D_Major | 来源:发表于2019-05-09 15:24 被阅读0次

    s - state, a - action, r - reward
    长期持有(或持有多头, holding long)是一种状态, 告诉我们股票是否是长期持有的, 也可能是持有空头(holding short)
    每日回报既可以作为状态作为参考, 也可以作为奖励

    马尔科夫决策问题包含:

    • 一组潜在状态S
    • 一组潜在行动A
    • 转移函数T[s, a, s'] # s'概率分布之和必须是1, 代表下一个状态, 其概率分布能带来有用的信息.
    • 奖励函数R[s, a]
      强化学习属于马尔科夫决策问题, 其任务是找出使奖励最大化的策略π(s), 最优策略称为π*(s), 其中两个算法是策略迭代和值迭代

    当转移函数和奖励函数未知时:

    <s_1, a_1, s_1', r_1>称为一个体验元组(experience tuple)
    有两种方法得到策略π:

    • 模型相关的强化学习
      通过查看转移统计数据构建模型T[s, a, s'], 以及对奖励求均值构建模型R[s, a], 获得这些模型后通过策略迭代或值迭代解决问题
    • 模型无关的强化学习
      Q-Learning

    折扣回报

    考虑到1美元的未来价值(货币贬值), 无穷步数的回报是逐渐减少的, 要乘系数λ, 系数λ和利率类似, 表示回报是折扣的.

    无限步数后可以获取, 有限步数10步也可以获取, 设置折扣回报仍可以获取

    相关文章

      网友评论

          本文标题:强化学习

          本文链接:https://www.haomeiwen.com/subject/imjwoqtx.html