美文网首页
强化学习

强化学习

作者: D_Major | 来源:发表于2019-05-09 15:24 被阅读0次

s - state, a - action, r - reward
长期持有(或持有多头, holding long)是一种状态, 告诉我们股票是否是长期持有的, 也可能是持有空头(holding short)
每日回报既可以作为状态作为参考, 也可以作为奖励

马尔科夫决策问题包含:

  • 一组潜在状态S
  • 一组潜在行动A
  • 转移函数T[s, a, s'] # s'概率分布之和必须是1, 代表下一个状态, 其概率分布能带来有用的信息.
  • 奖励函数R[s, a]
    强化学习属于马尔科夫决策问题, 其任务是找出使奖励最大化的策略π(s), 最优策略称为π*(s), 其中两个算法是策略迭代和值迭代

当转移函数和奖励函数未知时:

<s_1, a_1, s_1', r_1>称为一个体验元组(experience tuple)
有两种方法得到策略π:

  • 模型相关的强化学习
    通过查看转移统计数据构建模型T[s, a, s'], 以及对奖励求均值构建模型R[s, a], 获得这些模型后通过策略迭代或值迭代解决问题
  • 模型无关的强化学习
    Q-Learning

折扣回报

考虑到1美元的未来价值(货币贬值), 无穷步数的回报是逐渐减少的, 要乘系数λ, 系数λ和利率类似, 表示回报是折扣的.

无限步数后可以获取, 有限步数10步也可以获取, 设置折扣回报仍可以获取

相关文章

网友评论

      本文标题:强化学习

      本文链接:https://www.haomeiwen.com/subject/imjwoqtx.html