https://classroom.udacity.com/courses/ud501/lessons/5247432317/concepts/53299733920923
image.pngQ-Learning: model free, 不会用到Transitons T 和 Rewards R,而是用到 Q 函数
Q 函数可以是一个 Table
Q 函数并不是 Greedy 的函数
运行完成后,Pi 策略和 Q 都会得到最优的解
Q'[s,a] 的结果是一个值?reward的 现值+折现值?对的。看第一张 PPT
image.png image.png image.png image.png那种 reward 更快收敛?
image.png image.png
找出好的 State
仅仅是 SMA(simple moving average) 并不是好的状态,adjusted close 也不是。但组合起来就是了。
要将状态离散化
image.png
根据位置决定离散化的分界点 threshold
image.pngactions: Buy, Sell, Do nothing
image.png image.pngResources
- CS7641 Machine Learning, taught by Charles Isbell and Michael Littman
- Watch for free on Udacity(mini-course 3, lessons RL 1 - 4)
- Watch for free on YouTube
- Or take the course as part of the OMSCS program!
- RL course by David Silver(videos, slides)
- A Painless Q-Learning Tutorial
网友评论