人工观测数据集应该设置的足够大,这样方便你找到主要的错误类别。如果你在一项工作,这项工作人类可以完成的很好(比如识别图片中的猫),这有些粗略的指导准则:
• 如果在人类观测数据集上只产生了10个错误,则这个错误的数量太少了,用这10个错误,很难精确评估出不同类别错误的影响。但是如果数据量本身就比较少,而且无法投入更多的成本在人工观测数据集上,那么有总比没有好,这10个错误,也可以帮助你划分工作的优先级。
• 如果你的分类器在人工观测数据集上产生了20个错误,那么你就可以粗略的估计错误的来源了。
• 如果产生了50个错误,那么你就可以很好的找到错误的来源了。
• 如果产生了100个错误,那么你就可以更好的理解错误的来源。据我所知,人们往往会手工分析更多的错误,有时会多大500个。当你有足够多的数据时,这时一个不错的选择,这么做只有好处没有坏处。
如果说你的分类器有5%的错误率,为了在人工观测样本集上找到100个错误样本,你需要在人工观测样本集中放置2000个样本(因为0.05*2000=10)。为了得到足够多的错误样本,分类器的错误率越低,仍共观测的数据集就要越大。
如果你在做一项人类无法很好完成的工作,这时在人工观测样本集上做实验作用就没那么大了。因为人类很难分辨错误分类的原因。这种情况下,你可以忽略人工观测样本集。
我们将在后面的章节,讨论这些问题的处理准则。
模型调参(黑盒)数据集, 我们之前说过开发数据集中通常包含1000到10,000个样本。经过更多的数据也没什么坏处,但1000到10,000个样本的模型调参数据集完全足够我们进行参数调优和模型选择了。用于100个样本的模型调参数据集可能有些小,但是以然可用。
如果你的开发数据集比较小,可能没法无法将其分割成两个数据集,以满足手工调测数据集和模型调参数据集的需求。此时,你可以将所有的数据都用做人工调测数据集,这时你需要手工处理所有的开发数据集样本。
在人工调测数据集和模型调测数据集中,我认为人工调测数据集更加重要一些(假设你在处理一个人类能很好完成的工作,通过实验可以让你更加清楚的看成问题所在),如果你只有人工观测数据集,那么你可以在这个数据集上进行误差分析、模型选择、参数调优。只有人工调测数据集的缺点是更容易产生过拟合的现象。
如果你有足够多的数据,那么人工观测数据集的大小取决于你有多少时间来进行手工分析。例如,我很少看到有人手工分析1000个以上的错误数据。
网友评论