人工数据合成的概念通常包含两种不同的变体:第一种是白手起家创造新的数据;第二种是已经有了一小部分带标签的训练集,然后扩充为一个大的训练集


字符识别的更大的训练集: 现代计算机通常都有一个很大的字体库,库中有很多不同类型的字体,然后将字体粘贴到其他随机的背景图像前面(第一种)。然后模糊操作让图像变形,比如均匀等比例缩放或者一些旋转操作等等(第二种)。
语音识别的更大的训练集:自动地为纯净的音频片段添加这些不同的背景声音(高斯随机噪声 )

建议:
1.产生大量人工训练样本之前,通常最好应该先保证你已经有了一个低偏差的分类器,这样得到大量的数据才真的会起作用
2.考虑要付出多少工作量来获得10倍于我们现有的数据量
3."众包"(crowd sourcing),雇佣标记人帮你为数据加上标签

网友评论