预训练语言模型的发展https://www.cnblogs.com/sandwichnlp/p/11947627.html#1840448010
一文读懂bert(原理篇)
https://blog.csdn.net/jiaowoshouzi/article/details/89073944
1.Semi-supervised sequence tagging with bidirectional language models
2.Empower Sequence Labeling with Task-Aware Neural Language Model
3.Contextual String Embeddings for Sequence Labeling
以上3篇论文都是在词向量的表征上做工作
-
第一篇论文叫做基于双向语言模型的半监督序列标注,主要工作是将在大规模未标注的语料库上预训练的词向量拼接到原来的BiLSTM训练的词向量中去。
-
以上是整个模型的大致框架,作者的主要工作就是加了右边橙色部分的LM embedding。
-
上图是整个模型的具体流程,可以看到模型主要分为两个部分:
1)先看右边,是一个预先训练好的双向语言模型,比如对于单词“New”,可以通过预训练的bi-LM模型得到它的LM embedding。
2)左边其实也很清楚,在token representation部分,将词嵌入和用CNN或RNN提取的字符嵌入拼接起来,输入到第一层的RNN中,将RNN的输出与预训练词嵌入的输出拼接起来,输入到第二层的RNN中,得到最终的Sequence representation,最后就是CRF序列标注。 -
简单说下我认为这篇文章的缺点,主要是预训练的语言模型数据量太大,在普通的GPU下训练时间太长,不好复现
-
第二篇论文叫做任务感知神经语言模型的授权序列标记,它针对标注数据较少的问题提出了一种新的框架,利用迁移学习提取字符级别的特征,与之前的迁移学习需要额外的监督任务不同,这篇文章采用文本自身的信息,从文本自包含顺序中提取知识。
-
以上是整个模型的具体流程图,作者用不同颜色和形状的组件已经将模型刻画地很清楚了:
1)本文中有两个任务,分别是LM(语言模型任务)和SL(序列标注任务),为了协调这两个任务,我们将字符级层转换到不同语义空间的不同目标。此策略允许字符级层专注于一般特征提取上,并让变换层选择特定于任务的功能。因此,我们的语言模型可以提供序列标记的相关知识,而不强制它共享整个特征空间。
2)highway 层是一个非线性的转换函数,具体如下:
上图是与上一篇文章对比的结果,可以看到最下面作者提出的方法在没有利用任何额外资源的情况下在Conll2003数据集上F1值达到了91.71,相比于2017年的Peter的91.93的F1值差距不是很大,但上一篇文章所用的额外资源对GPU来说是个负担。
-
第三篇文章叫做用于序列标注的上下文字符串嵌入(ps:这篇文章我之前也粗略看过,用了它的flair框架)
以上是模型的大致框架,可以看到,作者所用的模型很简单,关键在下面的character language model
1)在无标签的数据上对character级别输入进行语言模型预训练。(正是因为是在无标签的数据上,所以数据量大效果会比较好)
2)把每个token中的最后一个character由前向LSTM(Long Short Term Memory Network)和后向LSTM的隐状态拼接动态得到该token的表示,既可以解决一词多义问题,又可以解决OOV(out of vocabulary)问题。
上图是字符级别的语言建模的细节刻画,我今天看到第二篇文章时就觉得这篇文章与它很类似,后面作者也比较了它俩的不同点,主要在于上面那篇文章没有使用额外的语料库进行预训练,而本文在无标签的数据上对character级别的输入进行语言模型预训练,但与第一篇的不同点在于它是基于字符级别的语言模型,不是基于词汇级别的语言模型,所以需要的数据量会比较少,复现所需要的时间相对较少。
这篇文章还有一个点是消融实验的做法:
如上图所示,“Washington”这个单词在a,b,c,d4个句子中分别代表不同的含义,文章提出的模型计算得到他们的嵌入也不同,这就说明了同一单词在不同的上下文中会有不同的嵌入,同时,用余弦距离计算与“Washington”意思相近的单词,在最右边的句子中可以看到,比如说a,“Washington”是person类,计算得到的句子中的单词也是person类
网友评论