simple but tough-to-beat baselin

作者: ltochange | 来源:发表于2021-05-30 23:15 被阅读0次

simple but tough-to-beat baselin
论文导读-A simple but tough-to-beat
reid-strong-baseline代码阅读笔记
搭建NER（命名实体识别）分类器
LinearLayout中的baselineAligned属性
react native flex布局
Grammar & Punctuation 学习笔记（一）
自定义View绘制文本居中
Simple.
Simple。

1.论文摘要

该论文是在 ICLR 2017提出的一个无监督的句子嵌入的方法：使用维基百科等无标签的语料训练得到词向量，然后通过词向量加权平均获得句子表征向量。然后使用PCA/SVD再对句向量进行一次修正得到最终得句向量。

2. 计算句子表征的算法

先来看下论文中提出的句子表征的算法：

句子表征算法.png

上面的算法过程中有两个重点：
• 为什么可以通过句子中的单词向量加权平均来获得句子初始的向量的表征？（公式(1)）
• 为什么得到句子的初始向量之后要做一个修正（公式(2)）

论文围绕着这两个问题进行了解答。

3. 随机游走模型

论文首先介绍了随机游走模型：将句子生成看出是一个动态过程，在第t时刻下的语篇向量 $c_t$ 决定生成第t个词。语篇向量表示的是这个时刻句子语义。不同时刻的语篇向量的游走变化会导致生成不同的词。词典中的每一个词都有一个词向量 $v_w$ 。

一个时刻t ，生成的词是w的概率，可以由如下的公式表示:
$\operatorname{Pr}\left[w \text { emitted at time } t \mid c_{t}\right] \propto \exp \left(\left\langle c_{t}, v_{w}\right\rangle\right) .$

假定在文本生成的过程中，语篇向量是在做一个缓慢的游走（意味着 $c_t$ 添加一个很小的位移向量就能获得 $c_{t+1}$ ）,所以相近的词对应的语篇向量都是比较接近的。

假设一句话各个位置单词出现时，语篇向量变化不大，所以将使用一个固定的语篇向量 $c_s$ 来近似表示各个时刻的语篇向量 $c_t$ 。

$\operatorname{Pr}\left[w \text { emitted at time } t \mid c_{s}\right] \propto \exp \left(\left\langle c_{s}, v_{w}\right\rangle\right) .$

从上述公式可以看出，某个时刻的语篇向量 $c_s$ 和词向量 $v_w$ 内积越大,该词越有可能出现。

对于停用词，在不同的句子中都有可能出现，所以这些停用词的词向量的模长尽量长一点，才能与不同的语篇向量的内积都比较大。

论文对上面的模型进行了两个主要的修改:
$\begin{matrix} \operatorname{Pr}\left[ w\text{ emitted in sentence } s\mid c_{s}\right] =\alpha p(w)+(1-\alpha )\frac{\exp\left(\left< \tilde{c}_{s} ,v_{w}\right> \right)}{Z_{\tilde{c}_{s}}}\\ \text{where }\tilde{c}_{s} =\beta c_{0} +(1-\beta )c_{s} ,c_{0} \perp c_{s}\\ where\ Z_{\tilde{c}_{s}} =\sum _{i}^{n}\left(\left< \tilde{c}_{s} ,v_{w_{i}}\right> \right) \end{matrix}$

(1) 增加平滑项
在模型中引入一个加法项 $α p(w)$ ,其中的 $p(w)$ 表示单词在整个语料库中的概率， $α$ 是一个标量，这保证了一个词的向量与语篇向量的内积很小很小的情况下，整个词也是可能被话语向量生成出来。论文也对这种平滑操作称为：SIF(smooth inverse frequency)

(2) 引入公共语篇向量 $c_0$
引入了一个公共的语篇向量 $c_0$ ，其表示所有句子都具有的公共语义。但句子间的差异需要有差异的那部分语义来体现的。所以在计算句子间的语义相似度的时候，需要先删除公共语义部分。

假定所有词向量大致满足均匀分布，且模长一致， $Z_{\tilde{c}_{s}}$ 可以近似看成是一个定值。
$\operatorname{Pr}\left[ w\text{ emitted in sentence } s\mid c_{s}\right] =\alpha p(w)+(1-\alpha )\frac{\exp\left(\left< \tilde{c}_{s} ,v_{w}\right> \right)}{Z}$

4.基于随机游走模型求解句子向量

根据上述的随机游走篇章模型可知一句话的概率为：
$p\left[s \mid c_{s}\right]=\prod_{w \in s} p\left(w \mid c_{s}\right)=\prod_{w \in s}\left[\alpha p(w)+(1-\alpha) \frac{\exp \left(\left\langle v_{w}, \tilde{c}_{s}\right\rangle\right)}{Z}\right]$

通过最大似然来求得语篇向量 $c_s$ 使得上述句子概率 $p(s)$ 概率最大。

先分析一下 $p(w|c_s)$ 。令 $f_{w}\left(\tilde{c}_{s}\right)=log(p(w|c_s))$ 。
$f_{w}\left(\tilde{c}_{s}\right)=\log \left[\alpha p(w)+(1-\alpha) \frac{\exp \left(\left\langle v_{w}, \tilde{c}_{s}\right\rangle\right)}{Z}\right]$

对 $f_{w}\left(\tilde{c}_{s}\right)$ 进行求导：
$\nabla f_{w}\left(\tilde{c}_{s}\right)=\frac{1}{\alpha p(w)+(1-\alpha) \exp \left(\left\langle v_{w}, \tilde{c}_{s}\right\rangle\right) / Z} \frac{1-\alpha}{Z} \exp \left(\left\langle v_{w}, \tilde{c}_{s}\right\rangle\right) v_{w} .$

然后通过泰勒展开式：

$\begin{aligned}f_{w}\left(\tilde{c}_{s}\right) & \approx f_{w}(0)+\nabla f_{w}(0)^{\top} \tilde{c}_{s} \\ &=\text { constant }+\frac{(1-\alpha) /(\alpha Z)}{p(w)+(1-\alpha) /(\alpha Z)}\left\langle v_{w}, \tilde{c}_{s}\right\rangle . \end{aligned}$

通过上述可知,假定 $\tilde{\boldsymbol{c}}_{s}$ 模长固定的情况下，与 $v_w$ 同方向的时候 $f_{w}\left(\tilde{c}_{s}\right)$ 结果最大。

假定 $\tilde{c}_{s}$ 服务单位球面上的均匀分布,因此当 $\tilde{\boldsymbol{c}}_{s}$ 与 $\sum_{w \in s} \frac{a}{p(w)+a} v_{w}$ 同方向时， $\sum_{w \in s} f_{w}\left(\tilde{c}_{s}\right)$ 结果最大。

$\arg \max \sum_{w \in s} f_{w}\left(\tilde{c}_{s}\right) \propto \sum_{u \in s} \frac{a}{p(w)+a} v_{w}, \text { where } a=\frac{1-\alpha}{\alpha Z}$

所以一个句子的初始向量可以定义为：
$\tilde{c}_{s}\leftarrow \frac{1}{|s|}\sum _{w\in s}\frac{a}{a+p(w)} v_{w} \ \$

目前为止回答了第一问题：为什么可以通过句子中的单词向量加权平均来获得句子初始的向量的表征。下面回答一下为什么得到句子的初始向量之后要做一个修正。

上面提到但句子间的差异需要有差异的那部分语义来体现的。所以在计算句子间的语义相似度的时候，需要先删除公共语义部分。

论文中使用的删除句子公共语义部分的方法是：
将前面求解都的句子集合S中所有的句子表征向量 $\tilde{\boldsymbol{c}}_{s}$ 以列向量拼接成一个矩阵 $X$ 。假定 $u$ 是矩阵的第一奇异向量。

最终的句子表征向量可以通过如下公式求得:

$c_{s}\leftarrow \tilde{\boldsymbol{c}}_{s}-uu^{\top } \tilde{\boldsymbol{c}}_{s}\$

5.实验结果

实验结果.png

从论文中的实验来看,论文提出的句子表征算法(图中的GloVe+WR) ,比基于词向量通过tfidf加权或者平均方式来获得句向量的方式要好。(图中的tfidf-GloVe,avg-Glove)

参考资料

A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

simple but tough-to-beat baselin
1.论文摘要该论文是在 ICLR 2017提出的一个无监督的句子嵌入的方法：使用维基百科等无标签的语料训练得到词...
论文导读-A simple but tough-to-beat
ICLR 2017文章简介:文章提出了sif sentence embedding方法来得到句子的embeddin...
reid-strong-baseline代码阅读笔记
一、简介 https://github.com/michuanhaohao/reid-strong-baselin...
搭建NER（命名实体识别）分类器
Methods for NER 利用规则（比如正则）投票模型（Majority Voting） baselin...
LinearLayout中的baselineAligned属性
相信在用studio写布局xml的时候LinearLayout会报一些警告 Set android:baselin...
react native flex布局
问题：设置alignItems为baseline在安卓上不生效。设置父组件的alignItems为baselin...
Grammar & Punctuation 学习笔记（一）
simple tenses Simple present,simple past and simple futur...
自定义View绘制文本居中
先看一张图: Baseline是基线，在android中，文字的绘制都是从Baseline处开始的，Baselin...
Simple.
Man is simple ,and name is simple
Simple。
Man is simple ,and name is simple