28~32节
介绍了学习曲线相关内容。
学习曲线将验证集的误差和训练集样本的数量进行关联比较。通过在不同大小的训练集上进行训练,比较得到的学习器在验证集上的误差变化。
随着训练集的增大,验证集误差应该降低。观察学习曲线或许能帮助我们估计达到目标准确率所需的训练数据量。但同时,训练误差往往会随之增加。
如果训练误差与期望误差之间有较大间隙,则表示可避免的偏差较大。而如果训练误差与验证误差之间的间隙较小,则表明方差较小。
而下图则反映偏差很小,方差很大。增加更多的训练数据可能有助于缩小开发误差和训练误差之间的差距。
对于偏差和方差都比较大的情况,则需要考虑新的方法来减小算法中的偏差和方差。
绘制学习曲线的成本往往较高。因为要训练多个模型,来比较。尤其是数据集较大的时候,会有较高的成本。
33~35节
学习器的效果往往要与人类表现水平进行比较。这是因为很多机器学习系统的设计目的就是要自动化一些人类可以处理的事情。
以人类的表现水平来设定“期望错误率”,来判断学习器的效果如何。同时可以帮助指导算法是否有很较高的可避免偏差,来帮助指导进一步提升算法性能。
网友评论