摘抄：CNN文本分类实现

作者: Canala | 来源:发表于2019-10-06 01:52 被阅读0次

摘抄：CNN文本分类实现
卷积神经网络CNN的文本分类原理和实战
Tensorflow实现CNN文本分类
Python篇—文本分类
CNN文本分类
文本分类--CNN
BAT机器学习面试1000题系列（二）
tensorflow训练自己的数据集实现CNN图像分类1
CNN用于文本分类
CNN与文本分类

一、文本分类模型详解

1. FastText

其中FastText结构特别简单,对于速度要求特别高场合适用，他把一篇文章中所有的词向量（还可以加上N-gram向量）直接相加求均值，然后过一个单层神经网络来得出最后的分类结果。很显然，这样的做法对于复杂的文本分类任务来说丢失了太多的信息。FastText的一种简单的增强模型是DAN，改变在于在词向量平均完成后多叠了几层全连接神经网络。对应地，FastText也可以看成是DAN全连接神经网络层数为1的的一种特例。

图1 2层DAN网络

需要特别注意的是，对于不加n-gram向量的FastText模型，他不可能去分辨否定词的位置，看下面的两句话：

我不喜欢这类电影，但是喜欢这一个。

我喜欢这类电影，但是不喜欢这一个。

这样的两句句子经过词向量平均以后已经送入单层神经网络的时候已经完全一模一样了，分类器不可能分辨出这两句话的区别，只有添加n-gram特征以后才可能有区别。因此，在实际应用的时候需要对你的数据有足够的了解。

2. TextCNN

TextCNN相较于fastText模型的结构会复杂一些，在2014年提出，他使用了卷积 + 最大池化这两个在图像领域非常成功的好基友组合。我们先看一下他的结构。如下图所示，示意图中第一层输入为7*5的词向量矩阵，其中词向量维度为5，句子长度为7，然后第二层使用了3组宽度分别为2、3、4的卷积核，图中每种宽度的卷积核使用了两个。

其中每个卷积核在整个句子长度上滑动，得到n个激活值，图中卷积核滑动的过程中没有使用padding，因此宽度为4的卷积核在长度为7的句子上滑动得到4个特征值。然后出场的就是卷积的好基友全局池化了，每一个卷积核输出的特征值列向量通过在整个句子长度上取最大值得到了6个特征值组成的feature map来供后级分类器作为分类的依据。

图2 TextCNN结构

我们知道图像处理中卷积的作用是在整幅图像中计算各个局部区域与卷积核的相似度，一般前几层的卷积核是可以很方便地做可视化的，可视化的结果是前几层的卷积核是在原始输入图像中寻找一些简单的线条。NLP中的卷积核没法做可视化，那么是不是就不能理解他在做什么了呢，其实可以通过模型的结构来来推断他的作用。因为TextCNN中卷积过后直接就是全局max pooling，那么它只能是在卷积的过程中计算与某些关键词的相似度，然后通过max pooling层来得出模型关注那些关键词是否在整个输入文本中出现，以及最相似的关键词与卷积核的相似度最大有多大。我们假设中文输出为字向量，理想情况下一个卷积核代表一个关键词，如下图所示：

图3 TextCNN卷积核的意义示意图

比如说一个2分类舆情分析任务中，如果把整个模型当成一个黑箱，那么去检测他的输出结果，会发现这个模型对于输入文本中是否含有“喜欢”，“热爱”这样的词特别敏感，那么他是怎么做到的呢？整个模型中能够做到遍历整个句子去计算关键词相似度的只有卷积的部分，因为后面直接是对整个句子长度的max pooling。但是因为模型面对的是字向量，并不是字，所以他一个卷积核可能是只学了半个关键词词向量，然后还有另外的卷积核学了另外半个关键词词向量，最后在分类器的地方这些特征值被累加得到了最终的结果。

TextCNN模型最大的问题也是这个全局的max pooling丢失了结构信息，因此很难去发现文本中的转折关系等复杂模式，TextCNN只能知道哪些关键词是否在文本中出现了，以及相似度强度分布，而不可能知道哪些关键词出现了几次以及出现这些关键词出现顺序。假想一下如果把这个中间结果给人来判断，人类也很难得到对于复杂文本的分类结果，所以机器显然也做不到。针对这个问题，可以尝试k-max pooling做一些优化，k-max pooling针对每个卷积核都不只保留最大的值，他保留前k个最大值，并且保留这些值出现的顺序，也即按照文本中的位置顺序来排列这k个最大值。在某些比较复杂的文本上相对于1-max pooling会有提升。

3. HAN(Hierarchy Attention Network)

相较于TextCNN，HAN最大的进步在于完全保留了文章的结构信息，并且特别难能可贵的是，基于attention结构有很强的解释性。

他的结构如下图所示：

图4 HAN结构

输入词向量序列后，通过词级别的Bi-GRU后，每个词都会有一个对应的Bi-GRU输出的隐向量h，再通过uw向量与每个时间步的h向量点积得到attention权重，然后把h序列做一个根据attention权重的加权和，得到句子summary向量s2，每个句子再通过同样的Bi-GRU结构再加attention得到最终输出的文档特征向量v向量，然后v向量通过后级dense层再加分类器得到最终的文本分类结果。模型结构非常符合人的从词->句子->再到篇章的理解过程。

最重要的是该模型在提供了更好的分类精度的情况下，可视化效果非常好。同时在调参过程中，我们发现attention部分对于模型的表达能力影响非常大，整个模型在所有位置调整L2-Loss对模型表达能力带来的影响远不如在两处attention的地方大，这同时也能解释为什么可视化效果比较好，因为attention对于模型的输出贡献很大，而attention又恰恰是可以可视化的。

下面我们来看一下他在法律领域罪名预测任务上的可视化效果。下面的可视化的结果并不是找了极少数效果好的，而是大部分情况下模型的可视化能够解释他的输出。需要注意的是，此处为了让不太重要句子中相对重要的词并不完全不可见，词的亮度=sqrt(句子权重)*词权重。

在非常长的文本中，HAN觉得中间那些完全是废话，不如那句“公诉机关认为”有用，就放弃了。

图5 HAN attention可视化1

如下图所示，模型虽然在文本第二行中看到了窃取的字样，但是他认为这个案件中主要的事件是抢劫，这就是保留文本结构的好处。

图6 HAN attention可视化2

可以看到并不是所有的深度学习模型都是不可以理解的，这种可解释性也会给实际应用带来很多帮助。

4 DPCNN

上面的几个模型，论神经网络的层数，都不深，大致就只有2～3层左右。大家都知道何凯明大神的ResNet是CV中的里程碑，15年参加ImageNet的时候top-5误差率相较于上一年的冠军GoogleNet直接降低了将近一半，证明了网络的深度是非常重要的。

图7 ImageNet历年冠军

那么问题来了，在文本分类领域网络深度提升会带来分类精度的大幅提升吗？我们在一些比较复杂的任务中，以及数据量比较大(百万级)的情况下有提升，但不是ResNet那种决定性的提升。

DPCNN的主要结构如下图所示：

图8 DPCNN结构

从词向量开始(本文的重点在于模型的大结构，因此不去详解文中的region embedding部分，直接将整个部分认为是一种词向量的输出。)先做了两次宽度为3，filter数量为250个的卷积，然后开始做两两相邻的max-pooling，假设输入句子长度padding到1024个词，那么在头两个卷积完成以后句子长度仍然为1024。在block 1的pooling位置，max pooling的width=3，stride=2，也即序列中相邻的3个时间步中每一维feature map取这三个位置中最大的一个留下，也即位置0，1，2中取一个最大值，然后，移动2个时间步，在2，3，4时间步中取一次max，那么pooling输出的序列长度就是511。

后面以此类推，序列长度是呈指数级下降的，这也是文章名字Deep Pyramid的由来。然后通过两个卷积的非线性变换，提取更深层次的特征，再在输出的地方叠加上未经过两次卷积的quick connection通路(ResNet中使得深层网络更容易训练的关键)。因为每个block中的max pooling只是相邻的两个位置做max-pooling，所以每次丢失的结构信息很少，后面的卷积层又能提取更加抽象的特征出来。所以最终模型可以在不丢失太多结构信息的情况下，同时又做了比较深层的非线性变换。

我们实际测试中在非线性度要求比较高的分类任务中DPCNN会比HAN精度高，并且由于他是基于CNN的，训练速度比基于GRU的HAN也要快很多。