美文网首页
《Machine Learning Yearning》总结笔记(

《Machine Learning Yearning》总结笔记(

作者: 有机会一起种地OT | 来源:发表于2020-04-04 20:09 被阅读0次
    36~39节

    对于机器学习任务,要尽量使训练集、验证/测试集中的数据分布符合真实使用场景中的分布。
    但在大数据时代,往往具有很多能提供有价值信息,但与实际使用场景分布不同的数据。

    如果有能力训练一个高度灵活的算法(如一个足够大的神经网络),那么更多的数据,可以提供不少的有价值知识。当如果不是这样,过多数据则可能导致影响对真正符合实际分布的数据集的学习效果。

    这就需要判断是否要增加一些与实际分布不同,但也可以提供有价值信息的数据。这总是要依据于问题中到底关心什么。

    在能力有限的时候,可以给那些额外的数据以较低权重,来更侧重与对与实际相符的数据的训练。

    40~43节

    在训练学习器的泛化能力时,可以评估的几个方面包括:

    • 训练集上的误差(训练集误差)
    • 泛化到与训练集相同分布数据的能力(训练集验证误差)
    • 从训练集泛化到验证/检验集的能力(验证误差)

    如果训练集误差较明显小于训练集验证误差,则表明学习器有较高方差。(27节介绍了减少方差的一般技术)

    如果训练集误差、训练集验证误差与验证误差相近,且都较大,则说明学习器有很高的可避免偏差。(25节介绍了减少偏差的一般技术)

    而如果训练集误差和训练集验证误差相近,又较明显小于验证误差,则算法存在高可避免偏差和数据不匹配的问题。

    通过了解算法本身最容易产生那种类型的误差,可以更好地决定是否聚焦于减少偏差、减少方差或减少数据不匹配的技术。

    在数据不匹配的问题上,除了尝试找到可以匹配验证集的训练集数据。还可以尝试理解训练集和验证集分布之间差异的本质是什么。这或许能帮助你发现可能的提高性能的方法。

    44~46节

    这部分介绍了优化算法时可运用的思路。通过在验证集上根据误差样本进行优化验证测试,来判断造成误差的主要因素。从而明确优化方向。
    书中还结合强化学习做了举例。

    相关文章

      网友评论

          本文标题:《Machine Learning Yearning》总结笔记(

          本文链接:https://www.haomeiwen.com/subject/qsahphtx.html