美文网首页每天写500字数据科学家程序员
强化学习第2课:强化学习,监督式学习,非监督式学习的区别

强化学习第2课:强化学习,监督式学习,非监督式学习的区别

作者: 不会停的蜗牛 | 来源:发表于2018-11-05 18:58 被阅读14次

    图片来源

    现在让我们看一下强化学习和其他机器学习方法的对比。

    监督式学习中,我们有数据集,还有数据对应的标签。主要的任务是要让预测值尽量接近于这些标签。

    监督学习还有一个很重要的特点,就是它的数据要满足独立性。这对于使用SGD等算法,需要对数据进行采样时非常重要。

    而在强化学习中却没有这些假设条件:
    我们没有数据集,但是我们有一个系统,可以从中取样数据
    我们也没有想要得到的结果标签,因为没有专家告诉我们要做什么。

    不过我们可以自己尝试,通过采取一些行动,会有一个评判标准给我们正面或者负面的反馈
    例如在广告点击率这个问题中,我们得到的反馈就可以是用户点击网页后我们得到的钱。

    而且不管我们用什么算法,都应该把所有可能的行为都探索一下,以免我们错过了一个最优的方法,甚至从来没有学习过这个方法。

    强化学习另一个问题是 agent。
    agent 的观察会影响他的决策,他的决策也影响了他的观察
    例如想让他学习骑自行车,如果每次总是向左转,那么就没有办法获得向右转的数据点。

    同时还需要非常细心的去探索状态的空间,不然的话就会对问题有错误的解读,无法掌握问题的全局和完整性。


    非监督式学习也和强化学习有很大的不同。

    虽然都没有专家告诉我们答案,但是非监督式学习在做不一样的事情。

    它并没有像强化学习那样去学习一个优化的策略,而是尝试去描述数据,
    尝试去寻找一些隐藏的结构,和寻找一个策略是不同的。
    就相当于学会如何骑自行车要比懂得自行车的结构简单的多。


    虽然说了几点强化学习和监督式学习,非监督式学习之间的区别,
    但在解决实际问题时,你会发现它们会混合起来使用,比如说在强化学习中会使用一些监督式学习或非监督式学习。


    学习资料:
    Practical Reinforcement Learning


    推荐阅读 历史技术博文链接汇总
    http://www.jianshu.com/p/28f02bb59fe5
    也许可以找到你想要的:
    [入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]


    Hello World !
    This is 不会停的蜗牛 Alice !
    🐌 要开始连载强化学习系列啦!
    今天开始我们一起来每天 2 分钟,get 强化学习的一个小知识吧!

    相关文章

      网友评论

        本文标题:强化学习第2课:强化学习,监督式学习,非监督式学习的区别

        本文链接:https://www.haomeiwen.com/subject/inzsxqtx.html