EDA：最简单的自然语言处理数据增广方法

作者: AI研习社 | 来源:发表于2019-04-28 10:46 被阅读13次

EDA：最简单的自然语言处理数据增广方法
NLP自然语言处理-中文数据增强
外行也能看懂的科普：这就叫自然语言处理
你对自然语言处理了解多少呢？
风险管理行业如何应用人工智能？
信用风险评级模型开发流程---EDA（探索性数据分析）与数据描述
如何科学地蹭热点：用python爬虫获取热门微博评论并进行情感分
自然语言处理之gensim库使用
自然语言处理的语义建模介绍
自然语言处理的语义建模介绍

本文为 AI 研习社编译的技术博客，原标题：

These are the Easiest Data Augmentation Techniques in Natural Language Processing you can think of — and they work.

作者 | Jason Wei

翻译 | AI小山

校对 | 酱番梨审核 | 约翰逊·李加薪整理 | 立鱼王

原文链接：

https://towardsdatascience.com/these-are-the-easiest-data-augmentation-techniques-in-natural-language-processing-you-can-think-of-88e393fd610

数据增广常用于计算机视觉。在视觉领域，你几乎肯定可以翻折、旋转或镜像一幅图片，而不用担心它的标记发生变化。然后，在自然语言处理（NLP）领域，情况完全不同。改变一个词有可能改变整个句子的意思。所以，没有简单的方法能做到数据增广。真的是这样么？

我向你介绍EDA：简单数据增广技术，可以大大提升文本分类任务的性能（在EDA Github repository有简单的实现代码）。EDA包含四个简单操作，能极好地防止过拟合，并训练出更强健的模型，分别是：

同义词替换：在句子中随机选取n个非停用词。对每个选取的词，用它的随机选取的同义词替换。

随机插入：在句子中任意找一个非停用词，随机选一个它的同义词，插入句子中的任意位置。重复n次。

随机交换：任意选取句子中的两个词，交换位置。重复n次。

随机删除：对于句子中概率为p的每一个词，随机删除。

这些技术真有效吗？出乎意料，答案是肯定的。尽管生成的某些句子有点怪异，但是在数据集中的引入一些噪声，对于训练出一个健壮的模型来说，是极有好处的，特别是数据集比较小的时候。这篇论文指出，在5个文本分类任务的对比测试中，基于几乎所有大小的数据集，使用EDA都击败了常规训练方法，在训练数据集较小的时候，表现尤其突出。平均来说，用EDA训练一个循环神经网络（RNN），只需50%的训练数据，即可达到常规方法同等的精度。

文本分类任务的性能表现，相对于训练集的使用百分比。使用EDA（简单数据增广），在小数据集时，远胜常规方法。

EDA会保留增广句子的真实标记吗？

我知道你在考试这个问题。真的能在做增广操作的同时，保留其真实标记吗？我们用画图形的方法来验证一下。

假设你训练一个关于产品的正面、负面评价的RNN，使用常规和增广的句子都跑一遍，抽取神经网络的最后一层，用sTNE画一个潜在空间图：

ProCon数据集原生及增广句子的潜在空间图

可以看到增广句子的潜在空间图紧紧围绕着原生句子！这表明所生成的增广句子极大可能的保留了原始句子的标记。

这些操作都有效吗？

现在，我们来看看数据增广技术中每个单独操作的效果是什么样的。同义词替换好理解，但是另外三个操作真的起作用吗？我们可以做一个实验，单独做其中一种操作，并代入不同的α值，参数α大致可理解为“句子中被改变的单词的百分比”：

在不同大小的数据集下，对比其它五种文本分类方法，EDA操作的平均性能增益。参数α大致可理解为“句子中被每种增广操作改变的单词的百分比”。SR：同义词替换。RI：随机插入。RS：随机交换。RD：随机删除。

你能看到，在小数据集时，性能增益非常大，达到大约2-3%，数据集大的时候，增益变小（~1%）。但是，各项操作综合起来，如果设置的增广参数合理（句子中改变的单词不超过四分之一），能使训练出的模型更健壮。

做多少增广？

最后，对于一个真实句子，我们应该增广出多少句子呢？答案取决于你的数据集的大小。如果你的数据集很小，很可能会出现过拟合，此时你应该生成多一些的增广句子。如果数据集比较大，增加太多的增广句子，意义不大，因为原有的数据已经能训练出一个好的模型了。这个图表显示了相对于每个原生句子生成的增广句子的数量的性能增益：