美文网首页
《Machine Learning Yearning》总结笔记(

《Machine Learning Yearning》总结笔记(

作者: 有机会一起种地OT | 来源:发表于2020-04-04 20:09 被阅读0次
36~39节

对于机器学习任务,要尽量使训练集、验证/测试集中的数据分布符合真实使用场景中的分布。
但在大数据时代,往往具有很多能提供有价值信息,但与实际使用场景分布不同的数据。

如果有能力训练一个高度灵活的算法(如一个足够大的神经网络),那么更多的数据,可以提供不少的有价值知识。当如果不是这样,过多数据则可能导致影响对真正符合实际分布的数据集的学习效果。

这就需要判断是否要增加一些与实际分布不同,但也可以提供有价值信息的数据。这总是要依据于问题中到底关心什么。

在能力有限的时候,可以给那些额外的数据以较低权重,来更侧重与对与实际相符的数据的训练。

40~43节

在训练学习器的泛化能力时,可以评估的几个方面包括:

  • 训练集上的误差(训练集误差)
  • 泛化到与训练集相同分布数据的能力(训练集验证误差)
  • 从训练集泛化到验证/检验集的能力(验证误差)

如果训练集误差较明显小于训练集验证误差,则表明学习器有较高方差。(27节介绍了减少方差的一般技术)

如果训练集误差、训练集验证误差与验证误差相近,且都较大,则说明学习器有很高的可避免偏差。(25节介绍了减少偏差的一般技术)

而如果训练集误差和训练集验证误差相近,又较明显小于验证误差,则算法存在高可避免偏差和数据不匹配的问题。

通过了解算法本身最容易产生那种类型的误差,可以更好地决定是否聚焦于减少偏差、减少方差或减少数据不匹配的技术。

在数据不匹配的问题上,除了尝试找到可以匹配验证集的训练集数据。还可以尝试理解训练集和验证集分布之间差异的本质是什么。这或许能帮助你发现可能的提高性能的方法。

44~46节

这部分介绍了优化算法时可运用的思路。通过在验证集上根据误差样本进行优化验证测试,来判断造成误差的主要因素。从而明确优化方向。
书中还结合强化学习做了举例。

相关文章

  • 《Machine Learning Yearning》总结笔记(

    13节 本节意图告诉我们,想要一开始就设计和构建完美的系统会很困难。而构建并训练一个简单的基础系统,也是很有价值的...

  • 《Machine Learning Yearning》总结笔记(

    《Machine Learning Yearning》是吴恩达历时两年,根据自己多年实践经验整理出来的一本机器学习...

  • 《Machine Learning Yearning》总结笔记(

    36~39节 对于机器学习任务,要尽量使训练集、验证/测试集中的数据分布符合真实使用场景中的分布。但在大数据时代,...

  • 《Machine Learning Yearning》总结笔记(

    28~32节 介绍了学习曲线相关内容。学习曲线将验证集的误差和训练集样本的数量进行关联比较。通过在不同大小的训练集...

  • 《Machine Learning Yearning》总结笔记(

    47~52节 端到端学习要求学习算法直接从输入得到期望的输入。而流水线的模式需要人工设计学习组件,并考虑如何连接这...

  • 《Machine Learning Yearning》笔记

    设置开发集与测试集 在大数据时代来临前,机器学习中的普遍做法是使用70%/30%的比例来随机划分出训练集和测试集。...

  • 《MACHINE LEARNING YEARNING》

    Andrew Ng目录 为什么需要机器学习策略 如何使用这本书来帮助你的团队 预备知识和符号约定 规模促进了机器学...

  • Machine Learning Yearning

    大神吴恩达(不是写西游记的吴承恩)终于从全球外卖贸易十强公司百度离职了,广大脑残粉无不喜大普奔。 大神走了也没有忘...

  • 推荐书单

    其它: 《自私的基因》 《人工智能——一种现代方法》 《Machine Learning Yearning》 《D...

  • 深度学习训练tricks总结

    Thinking 在这些实验以及一些资料(主要是吴恩达的《Machine Learning Yearning》),...

网友评论

      本文标题:《Machine Learning Yearning》总结笔记(

      本文链接:https://www.haomeiwen.com/subject/qsahphtx.html