18.人工观测数据集和模型调参数据集多大合适翻译自吴恩达新书

作者: 袋马学院 | 来源:发表于2018-09-28 23:21 被阅读0次

人工观测数据集应该设置的足够大，这样方便你找到主要的错误类别。如果你在一项工作，这项工作人类可以完成的很好(比如识别图片中的猫)，这有些粗略的指导准则：

• 如果在人类观测数据集上只产生了10个错误，则这个错误的数量太少了，用这10个错误，很难精确评估出不同类别错误的影响。但是如果数据量本身就比较少，而且无法投入更多的成本在人工观测数据集上，那么有总比没有好，这10个错误，也可以帮助你划分工作的优先级。

• 如果你的分类器在人工观测数据集上产生了20个错误，那么你就可以粗略的估计错误的来源了。

• 如果产生了50个错误，那么你就可以很好的找到错误的来源了。

• 如果产生了100个错误，那么你就可以更好的理解错误的来源。据我所知，人们往往会手工分析更多的错误，有时会多大500个。当你有足够多的数据时，这时一个不错的选择，这么做只有好处没有坏处。

如果说你的分类器有5%的错误率，为了在人工观测样本集上找到100个错误样本，你需要在人工观测样本集中放置2000个样本(因为0.05*2000=10)。为了得到足够多的错误样本，分类器的错误率越低，仍共观测的数据集就要越大。

如果你在做一项人类无法很好完成的工作，这时在人工观测样本集上做实验作用就没那么大了。因为人类很难分辨错误分类的原因。这种情况下，你可以忽略人工观测样本集。

我们将在后面的章节，讨论这些问题的处理准则。

模型调参(黑盒)数据集, 我们之前说过开发数据集中通常包含1000到10,000个样本。经过更多的数据也没什么坏处，但1000到10,000个样本的模型调参数据集完全足够我们进行参数调优和模型选择了。用于100个样本的模型调参数据集可能有些小，但是以然可用。

如果你的开发数据集比较小，可能没法无法将其分割成两个数据集，以满足手工调测数据集和模型调参数据集的需求。此时，你可以将所有的数据都用做人工调测数据集，这时你需要手工处理所有的开发数据集样本。

在人工调测数据集和模型调测数据集中，我认为人工调测数据集更加重要一些(假设你在处理一个人类能很好完成的工作，通过实验可以让你更加清楚的看成问题所在)，如果你只有人工观测数据集，那么你可以在这个数据集上进行误差分析、模型选择、参数调优。只有人工调测数据集的缺点是更容易产生过拟合的现象。

如果你有足够多的数据，那么人工观测数据集的大小取决于你有多少时间来进行手工分析。例如，我很少看到有人手工分析1000个以上的错误数据。

网友评论

本文标题：18.人工观测数据集和模型调参数据集多大合适翻译自吴恩达新书

本文链接：https://www.haomeiwen.com/subject/bwpmoftx.html

18.人工观测数据集和模型调参数据集多大合适翻译自吴恩达新书