白话强化学习与PyTorch中的Q-learn大家都看完后说a=1不好,其实在解决这个路径问题的时候,肯定是a=1为最贴切的参数取值。不能为了套公式而套公式。顺便说下Q-learn只是为了阐述大数定律的概念,算法本身不能处理大维度的数据,小维度又不如递归算法来得直接准确,因此没什么应用价值,大家不要当真了。
白话强化学习与PyTorch中的Q-learn大家都看完后说a=1不好,其实在解决这个路径问题的时候,肯定是a=1为最贴切的参数取值。不能为了套公式而套公式。顺便说下Q-learn只是为了阐述大数定律的概念,算法本身不能处理大维度的数据,小维度又不如递归算法来得直接准确,因此没什么应用价值,大家不要当真了。
本文标题:2020-03-07
本文链接:https://www.haomeiwen.com/subject/dqlcdhtx.html
网友评论