【论文笔记】融合标签向量到BERT：对文本分类进行改进

作者: 致Great | 来源:发表于2022-01-06 23:13 被阅读0次

【论文笔记】融合标签向量到BERT：对文本分类进行改进
BERT
Machine-Learning–Based Column Se
Bert如何使用预留的[unused*]
bert多标签分类实验
论文阅读之“NeXtVLAD: An Efficient Neu
我的知识管理标签系统 | 原创干货分享
轻量级BERT模型ALBERT
mp-vue搭建博客小程序(二)
BERT 论文笔记

论文简介：融合标签嵌入到BERT：对文本分类进行有效改进
论文标题：Fusing Label Embedding into BERT: An Efficient Improvement for Text Classification
论文链接：https://aclanthology.org/2021.findings-acl.152.pdf
论文作者：{Yijin Xiong etc.}

论文摘要

随着BERT等预先训练模型获得越来越多的关注，从数据增强实验到改进模型数学原理，大量的研究已经进一步提高了它们的性能。在本文中，作者提出了一种简洁有效的方法，在保持几乎相同的计算成本的情况下，利用标签嵌入技术来提高BERT的文本分类性能。在6个文本分类基准数据集上的实验结果证明了其有效性。

论文简介

文本分类是自然语言处理(NLP)中的一个经典问题。任务是将预定义的类或多个类注释到给定的文本中，其中文本表示是一个重要的中间步骤。

为了学习更好的文本表示，已经开发了各种神经模型，包括卷积神经网络模型，循环神经网络模型和注意机制。预训练模型在文本分类方面也非常有利，因为它们通过避免从零开始来帮助简化训练过程。其中一组方法专注于单词嵌入，如word2vec和GloVe；另一种方法专注于上下文化单词嵌入，从CoVe到ELMo、OpenAI GPT、ULMFiT和BERT。

BERT在各种NLP任务中取得了特别令人印象深刻的表现。随着它的成功，通过对大量数据进行预训练的模型，如ERNIE、RoBERTa、UniLM和XLnet，由于其学习情境表示的能力而变得流行起来。这些模型基于多层双向注意机制，并通过MASK预测任务进行训练，这是BERT的两个核心部分。继续研究BERT的潜力仍然很重要，因为新的发现也可以帮助研究BERT的其他变体。在这项工作中，作者提出了一种简单而有效的方法来提高BERT的文本分类性能，通过类别标签的文本（如“世界”、“体育”、“商业”和“科学技术”）来增强上下文表示学习，同时不改变原始的编码器网络结构。本文的主要贡献如下:

文本和标签的嵌入都是从相同的潜在空间共同学习的，因此不需要进一步的中间步骤。
论文的实现方法在更彻底和有效的优势下利用了BERT固有的标签嵌入和文本嵌入之间的交互，而没有引入其他机制。
由于只需要BERT的原始结构，论文提到的方法几乎没有增加计算量。
在6个基准数据集上的广泛结果显示，论文方法挖掘了BERT的潜力，导致乐观地认为BERT可以进一步改进用于文本分类和其他下游任务。

模型算法

标签语义向量与Bert模型融合

图一展示了论文算法的大致结构，受句子对输入的启发，作者将标签文本与输入文本用[SEP]进行拼接，标签文本与输入文本用不同的片段向量(segment embeddings)表示。

将输入文档标记为 $D$ ,文档每个字符记为 $D_{i}$ ，相应的每个字符向量记为 $E_{D_{i}}$ ,然后 $D_{K}$ 代表输入文档的最后一个字符， $K$ 代表文档 $D$ 中的字符个数。
数据集的类别个数标记为 $C$ ,其中 $L_{j}$ 代表第 $j$ 个类别的标签文本， $E_{L_{j}}$ 代表 $L_{j}$ 的向量表示，如果一个 $L_{j}$ 中包含多个文本即’sub-words of a label’，比如agnews中的Sci\Tech标签，就输入了Science Technology的文本，则整体输入的label text就为world, sports, business, science technology。然后经过Token Embeddings 表示，将同一label下的sub-words都求平均。
这种方式下，标签句子（类别文本组成的文本）的长度为 $C$ 。
$E_{L_{j}}$ 和 $E_{D_{j}}$ 通过self-attention编码得到最后的表示，记为w/[SEP]。

后面同正常文本分类相同，通过整体[CLS] embedding，图片中为 $T_{[CLS]}$ 接上tanh线性层进行分类，通过交叉熵损失训练。

举例：假设有三个类别---体育、美食、人物。「马德里竞技」视角下这三类最后都是抽象的，为A/B/C，若训练时「体育美食人物+马德里竞技」--->体育，则模型能学习到「竞技」「体育」之间的关系，即利用label的文本信息。

除了单个文本输入之外，作者对于句子对输入没用用[SEP]字符拼接标签文本与输入文本，因为前后不是自然句，不像NSP任务，这种方式记为w/o[SEP]

使用tf-idf进一步优化标签文本

除了使用文档将标签的原始文本编码到BERT中外，作者还实验为每个类选择更多的单词作为代表，从而扩大了Lj中标记的数量。通过tfidf 标签文本增强来进一步提高我们的模型的性能。使用基于WordPiece的Bert Tokenizer来对文本进行分词，然后计算每个subword的平均tf-idf得分，最后将前5、10、15或20作为补充标签文本到相应的类。

论文实验

数据集设置

其中AGNEWS包含四种类别，DBpedia包含14种类别，在线infer的时候也要加上这些前缀，会带来一定开销，所以label也不宜多，性能折中。同时，过多的label引入，也可能带来分类效果的下降。

论文实验效果分析

可以明显的看到不对句子pair input作区分w/o [SEP]取得了更好的效果。NSP任务在Bert pretrain阶段是用于预测下一个句子的。当我们将标签序列与输入文档连接时，[SEP]标记将非自然语言序列与自然语言句子组合在一起。这种差异可能导致了前训练和BERT微调之间的偏斜度，导致性能下降。