2019-01-31 “人工数据合成”（artificial d

作者: 奈何qiao | 来源:发表于2019-01-31 11:29 被阅读0次

人工数据合成的概念通常包含两种不同的变体：第一种是白手起家创造新的数据；第二种是已经有了一小部分带标签的训练集，然后扩充为一个大的训练集

人工数据合成

字符识别的更大的训练集：现代计算机通常都有一个很大的字体库，库中有很多不同类型的字体，然后将字体粘贴到其他随机的背景图像前面（第一种）。然后模糊操作让图像变形，比如均匀等比例缩放或者一些旋转操作等等（第二种）。

语音识别的更大的训练集：自动地为纯净的音频片段添加这些不同的背景声音（高斯随机噪声）

人工数据合成

建议：

1.产生大量人工训练样本之前，通常最好应该先保证你已经有了一个低偏差的分类器，这样得到大量的数据才真的会起作用

2.考虑要付出多少工作量来获得10倍于我们现有的数据量

3."众包"(crowd sourcing)，雇佣标记人帮你为数据加上标签

建议

网友评论

本文标题：2019-01-31 “人工数据合成”（artificial d

本文链接：https://www.haomeiwen.com/subject/oodksqtx.html

2019-01-31 “人工数据合成”（artificial d