美文网首页深度学习
2020机器学习 Transform 模型(2)

2020机器学习 Transform 模型(2)

作者: zidea | 来源:发表于2020-03-03 19:57 被阅读0次
image image

现在结合这张图大家可以回顾一下之前我们介绍如何通过线性变换来实现序列中各个时刻的注意力的分配。

多头自注意力机制(Multi-head Self-attention)

接下来我们和之前一样来做 self-attention,不同的地方是这一次只是对应位置上来 self-attention。也就是 只和 做匹配,而不会和 做匹配图中已经很清楚看出他们是如何做匹配。然后通过同样的流程计算中出

然后

做到多头自注意力机制好处就是我们不同的头(head)可以做不同事,有的头会更多关注与其相邻的输入,有的头可能会更多关注时间距离其较远的输入。也就是更加灵活了。当然这里只是给出了 2 头的自注意力,你可以做的更多。

解决 self-attention 中丢失的位置信息

现在我们可能已经大概了解自注意力是如何实现的,但是问题是现在我们每一个输入间关注度是均等,这里可能丢失每一时刻的输入的位置编码信息,既然是序列我们就需要知道每一个输入无论是在空间上还是时间上的位置编码信息。

由于 transformer 模型中,没有循环神经网络的迭代操作, 所以必须提供每个字的位置信息给 transformer, 才能识别出序列中的顺序关系.
现在定义一个位置嵌入的概念, 也就是

image , 位置嵌入的维度为 image , 嵌入的维度同词向量的维度一样, image 属于超参数, 指的是限定的最大单个句长.

在论文中使用 和 函数线性变换来提供模型位置信息。


image image

位置编码的方法是:构造一个跟输入embedding维度一样的矩阵,使用正弦函数和余弦函数来构造每个位置的值。

  • pos 表示词,如果序列中有 10 词 pos 就是 0 - 9 数字

  • image

    表示词向量的维度(列)

  • 表示词向量的位置,偶数位置用 而奇数采用

在李宏毅老师分享中,他是通过添加表示位置的热独编码(one-hot) 来表示每一个 的位置信息。

然后我们 和 做合并后乘以 做 embedding。我们可以将 理解为 和 组合,他们分别对应与 和 ,这样的话,我们就可以将他们乘积分别对应到表示输入和表示位置 从而等同 paper 对于位置信息 的设计。

self-attention 在 Seq2Seq 中使用

我们已经知道在 Seq2Seq 分别有两个 RNN 分别是编码器(encoder)和解码器(decoder)。

image

上面这张图就是 transformer 架构,既然之前已经说过 transformer 就是使用 self-attention 的 Seq2Seq,那么他就应该有编码器和解码器,在图中左半部分就是编码器(encoder)而右边就是解码器(decoder)。

相关文章

  • 2020机器学习 Transform 模型(2)

    现在结合这张图大家可以回顾一下之前我们介绍如何通过线性变换来实现序列中各个时刻的注意力的分配。 多头自注意力机制(...

  • 2020机器学习 Transform 模型(1)

    首先感谢李宏毅老师的分享,让我受益匪浅。部分图片也直接引用李宏毅老师的ppt 截图 今天我们将介绍 Bert,那么...

  • 2020机器学习 Transform 模型(3)

    编码器(encoder) 输入为 ( batch_size,sequence_length ),batch_siz...

  • 2020机器学习线性模型(2)

    现在我们可无需梯度下降通过矩形求导直接计算出完全通过学过线性代数知识来直接求取 那么什么时候我们选择最小二乘法什么...

  • 2019-02-17

    机器学习系列 机器学习100天 机器学习第1天:数据预处理 机器学习第2天:简单线性回归模型 机器学习第3天:多元...

  • 入门

    了解机器学习 标签需要通过机器学习模型判断出的结果 特征机器学习模型进行判断的条件(可以是很多的变量) 模型机器学...

  • 神经网络入门

    1.机器学习模型 上图展示了机器学习的基本模型, 我们先从最简单的线性回归来解释每个部分的基本概念。 2.神经网络...

  • nlp入门笔记——Task3 基于机器学习的文本分类

    学习目标 TF-IDF的原理和使用 使用sklearn的机器学习模型完成文本分类 机器学习模型 机器学习通过历史数...

  • ML学习计划

    1、完成李航版《统计学习方法》的学习,完成对统计学习的基本模型的认识。 2、着手机器学习模型进行实战,并完成模型的...

  • 算法工程师面试

    1、编程语言 2、基本算法 3、传统的机器学习算法 4、常见机器学习问题 过拟合问题、交叉验证问题、模型融合、...

网友评论

    本文标题:2020机器学习 Transform 模型(2)

    本文链接:https://www.haomeiwen.com/subject/vmqllhtx.html