美文网首页
03-06 Q-Learning

03-06 Q-Learning

作者: woodwood2000 | 来源:发表于2017-12-21 15:10 被阅读0次

https://classroom.udacity.com/courses/ud501/lessons/5247432317/concepts/53299733920923

image.png

Q-Learning: model free, 不会用到Transitons T 和 Rewards R,而是用到 Q 函数
Q 函数可以是一个 Table
Q 函数并不是 Greedy 的函数
运行完成后,Pi 策略和 Q 都会得到最优的解

image.png image.png image.png

Q'[s,a] 的结果是一个值?reward的 现值+折现值?对的。看第一张 PPT

image.png image.png image.png image.png

那种 reward 更快收敛?


image.png image.png

找出好的 State
仅仅是 SMA(simple moving average) 并不是好的状态,adjusted close 也不是。但组合起来就是了。

image.png

要将状态离散化


image.png

根据位置决定离散化的分界点 threshold

image.png

actions: Buy, Sell, Do nothing

image.png image.png

Resources

相关文章

网友评论

      本文标题:03-06 Q-Learning

      本文链接:https://www.haomeiwen.com/subject/gcuowxtx.html