一点思考:
关于深度强化学习的入门建议复现这篇博客,原文DDPG链接,国内的翻译游戏。
文章的状态量不是端对端的图像,而是可解释性比较好的传感器的数字信号。
最近在强行使用端对端的方案,过程中遇到了很多困难,直到现在想要放弃,这个过程也是在不断地学习,以后肯定还会尝试端对端的方案。
我在知乎上看见这样一段话,参见文章:强化学习路在何方,让我放弃现在刚开始入门深度强化学习就尝试端对端。“考虑到RL 的不稳定性,在实际应用中不应盲目追求端对端的解决方案,而可以考虑讲特征提取(DL)和控制(RL)分开,从而获得更好的解释性和稳定性。”
网友评论