容商天下大数据“轶事”：数据不够用，“伪”数据来凑数

作者: 共享人才平台 | 来源:发表于2019-07-17 17:29 被阅读0次

令人称奇的大神级AI，都曾经历过无数次训练，AI训练的核心是数据，尽管数据驱动并不是AI算法训练的唯一方式，但不能否认的是，相对来说，拥有海量数据的领域，是AI滋生的更好温床。

举一个简单的例子，与其他多个小语种翻译比起来，英汉翻译器的翻译能力往往会更强，就是因为英汉互译的使用频率远远高于其他各语种的互译。同理，人脸识别技术应用率远高于虹膜识别，因为人脸数据更方便收集。

数据匮乏或是采集成本高，是阻碍AI发展的一个重要原因。面对这种情况，数据增强技术应运而生。

所谓数据增强技术，就像是数据的繁殖皿，可以让数据进行“有丝分裂”，增强样本扩大数据集。

就拿图像数据来说，当图像数据不足时，可以对原图像做一些改动，例如裁剪、旋转、镜像反转、轻微的扭曲、增加噪点、增加遮挡物等等。也许对人类来说，被改动过的图像很容易被识别，看出与原图的差异。但对于AI来说，即使几个像素点的变动，也是一个全新的数据样本。

而应用于文本数据，则有互译和词向量替换两种方法。通过机器翻译，将一句话从中文翻译成英文，再由英文翻译成中文，就可以实现语序、同义词等等的调整替换，得到语料乘二的效果。以及通过自然语言生成技术，将一句话中的不同对象进行划分并替换生成新的句子，就像同义词、近义词替换。

令人惊喜的是，这些数据增强技术也开始通过深度学习的加持逐渐提升效率。

去年4月，谷歌的AutoAugment技术，设计了一个自动搜索空间，利用搜索算法来确定适合数据集的图像增强策略，制定执行的顺序并且自动执行。比如将一个动物或植物照片数据集输入给AutoAugment，AutoAugment通过计算会确定出先平移再剪裁是让AI对于数据“陌生感”最大化的解决方案，然后开始自动执行。是不是很精妙？

网友评论

本文标题：容商天下大数据“轶事”：数据不够用，“伪”数据来凑数

本文链接：https://www.haomeiwen.com/subject/ateclctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

容商天下大数据“轶事”：数据不够用，“伪”数据来凑数

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读