- 从发布版本中获取开发/测试集,该发布版本更能反映你未来想要获取并期望算法在其之上表现很好的数据。这个发布范本可能和你训练数据的版本不是同一个。
- 如果可能,开发集/测试集的数据要来自于同一个发布版本
- 为你的团队选择单一数字评估指标作为算法优化的方向。如果你要关注多个目标,考虑使用公式将多个目标合并成一个(例如取平均值)或者定义满足标准和优化标准
- 机器学习是一个高度迭代的过程:在找到满意的想法之前,你需要尝试很多种想法。
- 拥有开发/测试集和单一数量的评估指标可以帮助您快速评估算法,从而更快地迭代。
- 开始一个全新项目的时候,尽快搞定开发/测试集以及评估指标,比如在一周之内,但可以在具有成熟方案的应用上花费更多时间
- 当你应有大量数据时,将数据按照70%/30%的比例分为开发集/测试集的旧的启发式方法并不适用。测试集和开发集可能远远少于30%的数据。
- 测试集的数据规模需要能够检测出算法的微小改进,但是没有必要很大。测试集需要大到能够可靠的评估系统的性能。
- 如果你的开发集或者评估指标并不能将团队带向正确的方向,需要快速更改:(i)如果算法过度适应开发集,增加开发集的规模 (ii)如果你关心的实际发布版本和开发/测试集的发布版本不同,使用新的开发/测试集 (iii)如果评估指标并不能度量对你最重要的东西,更改评估指标
网友评论