美文网首页
LLM技术探讨(1)---位置编码

LLM技术探讨(1)---位置编码

作者: 飘涯 | 来源:发表于2023-09-03 10:36 被阅读0次

1、为什么需要位置编码

这要从Transformer设计之初说起。在人类语言中,单词的位置和顺序定义了语法,也影响着语义,无法捕获单词的顺序,会导致我们很难理解一句话的含义。

在NLP任务中,对于任何神经网络架构,能够有效识别每个词的位置与词之间的顺序是十分关键的,传统的循环神经网络RNN,本身通过自回归的方式考虑了单词之间的顺序,然后Transformer架构不同于RNN,Transformer使用纯粹的自注意力来捕获词之间的联系,纯粹的自注意力具有置换不变的性质,换句话说,Transformer中的自注意力无法捕捉输入元素序列的顺序,因此我们需要一种方法将单词的顺序合并到Transformer架构中,于是位置编码应运而生。 image.png

2、关于绝对位置编码和相对位置编码

绝对位置编码的作用方式是告知Transformer架构每个元素在输入序列的位置,类似于为输入序列的每个元素打一个位置标签标明其绝对位置,而相对位置编码作用于注意力机制,告知Transformer架构两两元素之间的距离。 image.png

3、大语言模型中的旋转位置编码

旋转位置编码(Rotary Position Embedding,RoPE)是论文 Roformer: Enhanced Transformer With Rotray Position Embedding 提出的一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。而目前很火的 LLaMA、GLM 模型也是采用该位置编码方式。
和相对位置编码相比,RoPE 具有更好的外推性,目前是大模型相对位置编码中应用最广的方式之一。

备注:什么是大模型外推性?
外推性是指大模型在训练时和预测时的输入长度不一致,导致模型的泛化能力下降的问题。例如,如果一个模型在训练时只使用了 512 个 token 的文本,那么在预测时如果输入超过 512 个 token,模型可能无法正确处理。这就限制了大模型在处理长文本或多轮对话等任务时的效果。

参考链接具体详情

相关文章

  • 位置编码

    https://blog.csdn.net/qq_27590277/article/details/1062644...

  • 位置编码

    Transformer: 不可学习位置编码 可以看出不同的column(j)之间,周期不一样 不同的row(i)之...

  • 通信技术基础实验

    基带编码(数字编码技术) AMI HDB3 Manchester1

  • 地理编码与反编码

    首先我们要了解地理编码和反编码的含义和作用:<1>地理编码:把地名转换成位置信息作用:把文字描述的 位置转换成地图...

  • 内置对象

    给搜素引擎查字符(chartAt/charCodeAt) 1、charAt,获取相应位置字符编码(参数:字符位置)...

  • 【教书匠阿伦-外刊精读】美国法学院,总统和大法官的摇篮

    The rise of the LLM (Master of Laws) degree is a subject ...

  • 音频技术基础

    一、音频编码调制技术 根据编码方式的不同,音频编码技术分为三种:波形编码、参数编码和混合编码。一般来说,波形编码的...

  • 语音压缩编码基本概念

    1、语音压缩编码     通常把低于 64kbit/s 速率的语音编码方法称为语音压缩编码技术。     常见的话...

  • 高德地图问题

    1:定位的时候获取用户的省市区位置,通过反地理编码 地理编码与反地理编码 地理编码:根据地址获得相应的经纬度以及详...

  • iOS直播App(编码篇)

    直播技术概况来说分为:采集;前处理;编码;推流;解码;渲染。 1.首先为什么视频要进行编码? 简单来说,未经编码的...

网友评论

      本文标题:LLM技术探讨(1)---位置编码

      本文链接:https://www.haomeiwen.com/subject/owmfvdtx.html