11.15
把 reinforcement learning 的简易教程的代码敲了2遍,理解了程序中每一步在做什么。然后开始看Temporal-Difference Methods.
11.15
把 reinforcement learning 的简易教程的代码敲了2遍,理解了程序中每一步在做什么。然后开始看Temporal-Difference Methods.
本文标题:100天持续行动—Day24
本文链接:https://www.haomeiwen.com/subject/khebfqtx.html
网友评论