之前用Q- leaning,但是感觉还是很慢。而且要手动分割.
现在直接用监督学习中的线性回归来训练模型近似价值函数。
用到了RBF,这次明显快很多了。
训练了10000次,连续100次累积奖励达到195以上就算完成。其实不用训练10000次,训练几千次大概就可以了。但这样子直觉来说不太稳定。
之前用Q- leaning,但是感觉还是很慢。而且要手动分割.
现在直接用监督学习中的线性回归来训练模型近似价值函数。
用到了RBF,这次明显快很多了。
训练了10000次,连续100次累积奖励达到195以上就算完成。其实不用训练10000次,训练几千次大概就可以了。但这样子直觉来说不太稳定。
本文标题:函数近似
本文链接:https://www.haomeiwen.com/subject/vrgsoltx.html
网友评论