论文阅读“Adaptive Nearest Neighbor M

作者: 掉了西红柿皮_Kee | 来源:发表于2022-12-05 11:26 被阅读0次

论文阅读“Adaptive Nearest Neighbor M
乘积量化(Product Quantization)
论文阅读“k-Nearest Neighbor Augmente
nearest_neighbor
Chapter 2 - Classifying with k-N
系统类优质论文
cs231n：assignment1：Q1k-Nearest N
Image Classification
Approximate Nearest Neighbor搜索
K Nearest Neighbor算法

Zheng X, Zhang Z, Guo J, et al. Adaptive Nearest Neighbor Machine Translation[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). 2021: 368-374.

摘要导读

最近由Khandelwal等人（2020a）提出的kNN-MT，成功地将预先训练的神经机器翻译（NMT）模型与token level的k-最近邻（kNN）检索结合起来，提高了翻译精度。然而，在kNN-MT中使用的传统kNN算法只是为每个目标token检索相同数量的最近邻，当检索到的邻居包含噪声时，可能会导致预测错误。本文提出了自适应kNN-MT来动态地确定每个目标token的k的数量。通过引入一个轻量级的meta-k网络来实现这一点，该网络可以用少量的训练样本有效地进行训练。在四个基准的机器翻译数据集上，证明了该方法能够有效地过滤掉检索结果中的噪声，并显著优于普通的kNN-MT模型。更值得注意的是，在一个领域上学习到的Meta-k网络可以直接应用于其他领域，并获得一致的改进，说明了提出方法的通用性。代码地址

注：因为笔者并不是做机器翻译的，因此这里着重看的是Adaptive Nearest Neighbors这部分

kNN-MT

首先介绍kNN-MT中的两个步骤：

构建数据存储
这里看做是一个字典，包含key-value对。给定句子对 $(x, y) \in (\mathcal{X, Y})$ ，预训练的自回归NMT将根据翻译的上下文 $(x, y_{<t})$ 对 $t$ -th token $y_t$ 进行解码翻译。这里将翻译上下的潜在表示记为 $f(x, y_{< t})$ ，据此，datastore使用 $f(x, y_{< t})$ 作为key， $y_t$ 为生成如下：
预测
在推断阶段，在每个解码步骤 $t$ ，kNN-MT基于已经产生的tokens $\hat{y}_{<t}$ 以及用于查询 $k$ 个最近邻的上下文表示 $f(x, \hat{y}_{<t})$ 。基于 $l_2$ 距离，检索到 $N^t=\{(h_i,v_i), i \in \{1, \cdots, k\}\}$ ，其对应的在vocabulary的分布计算为：
其中 $T$ 为温度参数， $d(\cdot, \cdot)$ 为 $l_2$ 距离。
由此，关于 $y_t$ 的预测由两个部分组成， $p_{NMT}$ 为普通的NMT预测结果。

Adaptive kNN-MT

为了解决这个问题，本文提出了一种动态方法，允许每个未翻译的token使用不同数量的邻居。

自适应kNN-MT的概述，它可以动态地评估和聚合一组基于距离和不同值的kNN预测。
具体来说，作者考虑了一组小于上界

K

的可能的

k

s，并引入了一个轻量级的Meta-k网络来估计利用不同的

k

s的重要性。简单起见，这里考虑的是2的幂次，即

k \in \mathcal{S}

：

然后，Meta-k网络通过以检索到的邻居作为输入来评估不同kNN结果的概率。

t

-th的解码步骤如下：

检索 $K$ 个近邻 $N^t$ ，并对 $N^t$ 中的 $(h_i, v_i)$ 计算其对应的距离 $d_i=d(h_i, f(x, \hat{y}_{< t}))$ ，以及前 $i$ 个邻域 $c_i$ 中不同值的计数。
将 $d =(d_1，...，d_K)$ 表示为距离， $c =(c_1，...，c_K)$ 表示为所有检索邻居的计数。
然后将它们拼接为Meta-k网络的输入特征。
这么有两个原因：(1)对于每个近邻来说，距离是其重要性最直接的体现；(2)此外，检索结果的值分布对于做出决策也至关重要，即如果每个检索结果的值不同，那么kNN预测就不够可信，因此应该更多地依赖于NMT预测。
文中将Meta-k网络 $f_{Meta}(\cdot)$ 构造为一个两层线性层，中间使用非线性激活函数连接的前馈网络。给定输入 $[d; c]$ ，使用kNN进行计算的概率结果为：

预测
在预测是，作者考虑了不同k得到的kNN预测的聚合获得最终的预测结果：其中 $p_{k_iNN}$ 代表 $k_i$ 个近邻的预测结果。
训练
训练中，采用固定预训练NMT模型，只通过最小化上述交叉熵损失函数优化Meta-k网络，如果只使用数百个训练样本，就可以非常有效。

本文提出了自适应kNN-MT模型，通过引入一个轻量级的meta-k网络，来动态确定每个目标标记的检索邻居的利用率。但是从计算的角度来说，相比于普通的kNN-NMT而言，增加了 $log_2K$ 倍的计算量。以及一个带有交叉熵的两层的前馈神经网络。当然，后者可以忽略不计。

论文阅读“Adaptive Nearest Neighbor M
Zheng X, Zhang Z, Guo J, et al. Adaptive Nearest Neighbor...
乘积量化(Product Quantization)
相似近邻搜索--乘积量化论文：Product Quantization for Nearest Neighbor...
论文阅读“k-Nearest Neighbor Augmente
Wang Z, Hamza W, Song L. -Nearest Neighbor Augmented Neur...
nearest_neighbor
Chapter 2 - Classifying with k-N
Classifying with distance measurements k-Nearest Neighbor...
系统类优质论文
相似搜索系列 Product quantization for nearest neighbor searchBi...
cs231n：assignment1：Q1k-Nearest N
k-Nearest Neighbor (kNN) exercise Complete and hand in th...
Image Classification
Nearest Neighbor Classifier L1 vs. L2. It is interesting ...
Approximate Nearest Neighbor搜索
典型场景：图像检索。高维检索。本质：很多稠密向量，要迅速找到某个点的临近点，并认为这是相似度最高的点。原始数...
K Nearest Neighbor算法
顾名思义通过最近的邻居们判断目标的属性。算法思想选取目标距离最近的k个节点，通过统计他们类型，选取最多数量的类...