NLP | DSSM双塔模型类综述

作者: AxsPlayer | 来源:发表于2019-03-20 10:57 被阅读0次

NLP | DSSM双塔模型类综述
广告行业中那些趣事系列10：推荐系统中不得不说的DSSM双塔模型
厉害了推荐系统—双塔 DSSM 模型(上)
2019-08-09工作进展3
极简父母
自然语言预训练模型大总结
推荐系统论文阅读（七)-借鉴DSSM构建双塔召回模型
[搜索引擎] DSSM模型及其变种
双塔模型实战
keras dssm 算法实现

背景：在NLP中，对于两个文本比较和分析的任务，比如文本相似度或者问答模型，因为涉及到两个输入源，如果使用单一的神经网络模型，会使得神经网络需要花费算例和算力去区分两个输入源的边界，所以采用结构上就能区分两个输入源的双塔模型在效果上和效率上会更好。本文主要对主流和一些优化改进的DSSM模型进行汇总和归纳。

1. DSSM

双塔模型主要通过对两段文本进行编码为固定长度的向量，然后通过两个向量间进行计算相似度来计算两段文本之间的关系。
一般的编码方式可以采用简单的word2vec，DNN或者LSTM、CNN等复杂的编码方式。

DSSM基本架构

2. C-DSSM

通过使用CNN对局部信息进行抽取，然后在上层采用max pooling的方式对全局信息进行抽取归纳。优点在于能够将变长的文本信息固定变化为同等长度的向量。

3. LSTM-DSSM

通过采用LSTM进行编码的方式，同样将文本编码为一段向量，但LSTM方式的缺点在于需要对文本长度进行预先的处理，同时对于长文本的处理效果也不是很理想。

4. BERT

通过BERT对文本进行编码，输出文本最后的代表向量的方式，也可以作为双塔模型的输出形式。但跟LSTM存在同样的问题，对于长文本依赖存在问题，但相对于LSTM模型的优点是由于采用的是self-attention，所以在效率上比LSTM会相对高效很多。

5. 微软改进的DSSM结构：

最近，微软的学者们又提出了一个观点：query与doc的相关程度是由query里的term与doc文本精准的匹配，以及query语义与doc语义匹配程度共同决定。而且，term匹配与term在doc中的位置和紧密度有较大关系。因此，他们用一个local model来表达term匹配程度，distribute model表达语义匹配程度，把这两个子模型放在同一个模型来训练。distribute model类似与DSSM来学习语义匹配关系。Local model的输入是一个nq∗ndnq∗nd的矩阵mm，nqnq是query中term个数，ndnd是doc中term个数，位置m(i,j)=0or1m(i,j)=0or1表示query里的第i个词是否与doc里的第j个词匹配，对这个输入矩阵通过convolution抽取特征并向量化。据其实验结果，这种结合term匹配信息的模型效果要优于DSSM等语义模型。

微软改进DSSM结构

6. Google改进的DSSM

Google的学者在用convolution对文本向量化是相比CDSSM做了些改进。Convolution的方法参考了Nal Kalchbrenner等对文本用卷积来做分类的方法。
首先，对句子中的每个词做embedding, 然后将词的embedding concat起来组合成一个矩阵，有点类似图像的表达。然后，在这个矩阵上通过不同feature map抽取特征，然后pooling生成一个维度的向量来表达句子。对Query和Doc的语义向量，再通过一个bilinear的模型计算其语义相似度：sim(xq,xd)=xq∗M∗xdsim(xq,xd)=xq∗M∗xd。最终，语义相似度与其它相关排序特征，以及query和doc向量一起作为决定排序的因素，通过pointwise的DNN模型来训练。

Google改进DSSM结构

7. IBM Waston实验室改进的DSSM模型

(1) Convolutional-pooling LSTM
用一个Bi-LSTM作为word embedding的方法，然后word embedding concat成矩阵表达句子，用卷积来抽取组合特征作为question和anwser的向量表达，再计算cosin loss.

Convolutional-pooling LSTM

（2）Convolution-based LSTM
先对原始文本用卷积捕捉局部的N-gram信息，然后在这个基础上用Bi-LSTM来学习更大范围的上下文依赖关系。

Convolution-based LSTM
(3) Attentive-LSTM
相比LSTM-DSSM, 在Attention机制上做了些改进，与NMT的Attention机制接近，即：通过Answer中的词向量加权平均生成整个Answer的向量时，每个词的权重是由Question向量和词向量来决定的。Question的表达仍由其所有词向量的avg或sum，max来表示。
Attentive-LSTM

8. 淘宝改进DSSM

(1) 对Query和标题向量淘宝采用DNN + Char-LSTM组合的方式：DNN能高效地学到TOP词的embedding, Char-LSTM能捕获到较长尾的字符组合。引入Char-LSTM后模型比较难训练，淘宝使用query和标题文本语料pretraining LSTM-AutoEncoder, 获得比较好的初始参数；同时TOP词的embedding采用word2vec初始化，模型能更快收敛。
(2) 在商品标题的embedding上增加了一个类目预测的辅助task, 使得不同类目的商品在向量空间内有更好的区分度，对模型效果和收敛速度都有比较好的提升。
(3) online ranking对latency要求比较高，除了工程优化外，模型上也有优化空间。在数据上实验发现compare function中全连层的深度和宽度对模型影响比较大。全连层宽一些效果会比较好，但计算量增加会很大；借鉴ResNet全连层设置窄一些，并加深模型，可以保证效果同时较大减少计算量。

淘宝改进DSSM结构

9. 基于词语粒度的相似度矩阵

如下图，Meng在其文章中直接基于词向量计算输入文本对儿在单词粒度上的相似度（计算方式有多种：欧式距离、余弦距离、参数化的相似矩阵），并以此为后续深层卷积神经网络的输入，最终学习得到的向量经过全连接层和softmax层进行预测。

相似度矩阵

10. LSF-SCNN

下图展示了LSF-SCNN的整体框架图，自底向上，LSF-SCNN模型由3个模块组成：
（1）对于输入的问题和候选答案，利用词汇语义特征技术为每个单词计算LSF特征值，以此来表征问题与答案之间的语义交互特征。LSF特征会和词嵌入拼接在一起构成词语粒度上更加丰富的特征表达，表达词的向量再次拼接构成句子矩阵。
（2）问题和候选答案的句子矩阵经过跳跃卷积层和K-Max均值采样层，最终形成对问题和答案各自的向量表达，记作Xq和Xa 。
（3）Xq和Xa会根据学习得到的相似度计算矩阵M得到一个相似度分数。最后，相似度分数和Xq、Xa整合一起作为分类器的输入，最终得到输入候选答案a被预测为正确答案和错误答案的概率。

LSF-SCNN