美文网首页
GPT-4~从随机性到类人学习

GPT-4~从随机性到类人学习

作者: tiger007lw | 来源:发表于2023-05-30 11:05 被阅读0次

       GPT仅仅是统计学习吗?输出的结果完全就是基于经典统计的条件概率生成文字,没有理解文字后面的意义,是一个随机鹦鹉?随机鹦鹉是一种基于随机化和模拟的自然语言生成模型。它的基本思想是模拟鹦鹉学舌的过程,通过随机组合已知的单词和短语来生成新的文本,从而实现自然语言生成。从学习的方式来看,的确是通过条件概率来判定token形成的序列。但是GPT就仅仅这样的鹦鹉学舌吗?不是的,从信息存储在物理空间中有上限。TA在学习过程中,有人类的抽象方法,甚至有些方式完全一样。在生成文本的时候,甚至可以通过先验知识和样本信息这个和人类推断问题一样的方法来从总体上理解生成问答结果。是在理解后利用概念、关系从篇幅的视角重新构建一篇逻辑自洽文章。这几个方面都说明了GPT绝对不会是一个随机鹦鹉。

    1. 信息存储

       可以从条件概率角度来理解这个学习过程。具体来说,对于一个给定的句子S,我们可以计算它的条件概率p(S),即 即p(w_1, w_2, ..., w_n) = \prod_{i=1}^n p(w_i \mid w_{1:i-1})p(w1,w2,...,wn)= \prod_i1np(w_i∣w_{1:i−1})   其中w_1, w_2, ..., w_n表示所有句子中的单词或者片段。一个句子的存在的概率就是就是排在后面的单词和它前面片段结合的条件概率。最近一位叫Jacob Bayless的工程师用数学方法得出惊人结论:
       按照上式计算排列数,这一数据量是50000^{8000},根据贝肯斯坦上限(Bekenstein bound)原理(在有限的空间和时间内,信息的总量是有限的,并且与空间和时间的量值有关。简单来说,贝肯斯坦上限原理是一种量化信息存储上限的方法),如果把这些信息分配到空间当中,所需要的信息密度已经远超宇宙能承受的最大值。若是如此,所需的信息量足以让整个宇宙都坍塌成黑洞。所以从这个角度来说,GPT学习也不可能是随机鹦鹉。

    2. 从学习过程和生成结果两个方面理解

       在学习过程中并非只是条件概率,还有在训练时,GPT 模型使用了大量的语料库进行训练,因此它在全局上学习到了单词之间的相互作用(可以被看作是单词间排列顺序的条件概率)和语义信息(单词的相似性,关联程度),还进行了语法学习。描述了单词、短语和句子的结构和规则。涉及到对语言规则和结构的理解和应用。因此,学习过程除了token层面的统计规则外,还通过高等统计以及表现出的涌现现象,具备了一定的语义理解和语法学习,具有抽象思维和推理能力。
       在生成输出序列时,模型会利用之前学习到的语义信息和输入序列的上下文,计算条件概率 p(w_i \mid w_{<i}),从而生成下一个单词。之前生成的单词是指前面已经生成的单词。通过不断生成下一个单词,就可以构成一个完整的句子。在这个过程中,模型会根据生成的单词和输入序列的上下文,计算出每个单词作为下一个单词的概率,然后按照这些概率进行采样来生成下一个单词。最终,生成的输出序列可以看做是在当前这个中构成单词的分布下,根据输入序列的上下文和之前生成的单词生成的。但是会根据提问给出的角色设立、问题描述、目标设定和要求补齐来很好地回答问题。这个过程可以看着一个贝叶斯统计计算最大后验分布过程。通过经验和当前状况做决策,这是人类的一个典型行为,因此,这个过程,也是知识表示和推理推断的一个结合。

    3. 学习过程中体现出的抽象能力

       如果GPT对文本具有语义理解的能力,能进行抽象,获得一种概括后的分类,能抽象出概念,那就应该说不是随机鹦鹉。ChatGPT的训练过程中,主要涉及语义理解和语法学习两个抽象行为。

    3.1. 语义理解

      语义理解的内容包括词汇语义关系的推断(如近义词、反义词、上下位关系等)、上下文理解、语境感知等。在层面上包括句子语义的理解、篇章语义的理解等。

    3.1.1. 词义推断

       当我们理解一句话或一个单词时,我们不仅需要知道它们的字面含义,还需要考虑它们在上下文中的含义。这就需要推断词的具体含义,这就是词义的推断。例如,在“我在银行取钱”这句话中,“取钱”不仅是字面意义上的取钱,还可以理解为提取自己的存款。

    3.1.2. 上下文理解

       是指我们需要考虑一个单词或一句话在周围环境中的含义和作用。例如,在“他走了”这句话中,“他”指的是谁需要根据上下文来理解,这个上下文可能是前面的句子或者是对话的情境。

    3.1.3. 语境感知

       是指我们需要考虑一个单词或一句话在特定语境下的含义和作用。例如,在“她说她很饿,可是她只吃了一点点”这句话中,“一点点”指的是什么需要根据语境来理解,这个语境可能是对话的背景或者是文本的情境。

    3.1.4. 常用学习方法

       可以使用词频统计和TF-IDF等方法来计算词语之间的相关性,使用主题模型和聚类分析等方法来识别文本中的主题和关键信息,使用语义角色标注和句法分析等方法来推断句子中词语之间的语法和语义关系。以句法分析为例,当分析句子结构时,可以根据词语之间的依存关系和语法规则,推断出它们的语义关系,从而实现语义理解。还有非常重要的自注意力机制,在一个句子中得到词的重要性,涉及两个方面,一个是这个词本身的含义(全域意义),一个是这个词和句子中其他词的相关性(局部相关)。二者结合起来共同形成注意力机制。

    3.2. 语法学习

      语法是一种语言的基本组成部分,它描述了单词、短语和句子的结构和规则。在自然语言处理领域中,语法通常被认为是一种抽象能力,因为它涉及到对语言规则和结构的理解和应用,需要具备一定的抽象思维和推理能力。
       在AI语言模型中,语法理解是一项非常重要的任务,因为它直接影响着模型生成的文本的准确性和流畅性。因此,在训练AI语言模型时,需要注重语法的学习和应用,以便生成自然、准确、流畅的文本。
       训练过程中,ChatGPT将大量的语料库输入到模型中,让模型学习语言的规则和结构。语法是语言的基本组成部分之一,包括单词、短语和句子的结构和规则。因此,ChatGPT在学习语法时,需要学习以下内容:

    3.2.1. 单词的分类和用法

      需要学习不同单词的分类和用法,例如名词、动词、形容词等,以及它们在句子中的用法。

    3.2.2. 短语的结构和组合

       需要学习不同短语的结构和组合方式,例如名词短语、动词短语、形容词短语等,以及它们在句子中的用法。

    3.2.3. 句子的结构和语法规则

       需要学习句子的结构和语法规则,例如主语、谓语、宾语等语法成分,以及它们在句子中的位置和用法。

    3.2.4. 标点符号的用法

       需要学习标点符号的用法,例如逗号、句号、问号等,以及它们在句子中的用法和作用。

    3.2.5. 学习方法

       ChatGPT学习语法的主要方法是通过大量的训练数据,利用神经网络模型学习语言规则和结构。具体来说,ChatGPT使用了一种称为“Transformer”的神经网络模型,它可以在训练过程中自动学习语言规则和结构,从而生成自然、准确的文本回复。

    3.3. 抽象能力

      ChatGPT的抽象能力表现在许多方面,比如能够抽象出概念、理解复杂的语言结构、从大量数据中提取规律等等。
       从概括后的分类来看,ChatGPT的抽象能力可以分为语义理解、语言生成、知识表示和推理推断等几个方面。其中,语义理解包括句子分析、语义识别等;语言生成包括文本生成、对话生成等;知识表示和推理推断表现为符号表示、语义网络、语义表示、逻辑推理、概率推理和机器学习等方面。

    4. 文本生成过程

    4.1. 条件概率生成句子

       在生成输出序列时,模型会利用之前学习到的语义信息和输入序列的上下文,计算条件概率 p(w_i \mid w_{<i}),从而生成下一个单词。之前生成的单词是指前面已经生成的单词。通过不断生成下一个单词,就可以构成一个完整的句子。在这个过程中,模型会根据生成的单词和输入序列的上下文,计算出每个单词作为下一个单词的概率,然后按照这些概率进行采样来生成下一个单词。最终,生成的输出序列可以看做是在当前这个中构成单词的分布下,根据输入序列的上下文和之前生成的单词生成的。
      具体来说,GPT 模型使用条件概率p(w_i \mid w_{<i})的概率,其中w<i 表示输入序列中位置 1 到位置i-1 处的单词组成的序列。
       在生成输出序列时,模型会根据之前生成的单词和输入序列的上下文,利用条件概率p(w_i \mid w_{<i})生成下一个单词。

    4.2. 贝叶斯方法生成文本

       提供方法等。在生成文本时,我们可以利用预训练语言模型中的条件概率分布来生成下一个单词,这个条件概率分布可以认为是先验分布。另外,我们可以将生成文本的词语排布看作是似然函数,利用生成模型中的联合概率分布来计算生成的新文本的似然函数。甚至可以通过贝叶斯公式来理解生成问答结果。
       GPT模型可以理解为求解条件概率P(θ|x),其中X是输入序列,θ是输出序列。使用贝叶斯公式可以将该条件概率展开成为似然函数×先验分布的乘积除以一个边缘分布。在GPT模型中,先验分布通常是均匀分布,边缘分布可以理解为所有可能输出序列的概率分布。因此,GPT模型的生成过程就是通过最大化似然函数来拟合条件概率的右侧部分,从而找出片段后(局部)最大概率。即给定输入序列,理解输出序列的概率分布。

    5. 学习方法的同构

       同构是值系统保持运算不变的一一映射。同构是指两个代数结构之间存在一个双射,且这个双射保持代数结构中的运算。换句话说,两个代数结构同构,当且仅当它们具有相同的结构,只是元素的标记不同。这两个系统就认为是完全相同。
      同构在抽象代数中具有重要意义,因为它们可以用来证明两个代数结构是本质相同的,从而可以在研究一个代数结构时,将其与其他已知的代数结构进行比较和分类。这个过程中,有元素、系统内元素间的运算(关系)、映射。
       同构的两个系统,可以是任意的两个系统(数学抽象能力的伟大,可以将不同系统通过找出其本质特点,发现其一致性)
       下面就语义理解中词义推断中的近义词理解做一个对比分析:

    系统 自然语言语义理解 GPT使用方法
    元素 Token:牡丹,玫瑰 词向量:[0.2,0.4,⋯,0.7],[0.3,0.3,⋯,0.7]
    关系 30二者都是美丽的鲜花 词向量相似,余弦夹脚小

       从上表中可以看到,自然语言处理和GPT学习在在这个过程中还是出现了复杂系统的涌现现象。他在学习的过程中会发现牡丹和玫瑰这两个单词很接近,因为他们都是极其美丽的鲜花,于是。牡丹和玫瑰这两个单词训练形成的两个词向量很接近,二者在对应词向量空间中夹角比较小,也就是说,二者具有相似性。这个过程就从统计形成的词向量之间的夹角大小同构为词义的远近,这样就形成了对语义的理解。
       牡丹和玫瑰都属于美丽的鲜花,这就是对语义的理解。而机器则是把牡丹和玫瑰形成的词向量,让他们的夹角接近。就在自然语言和统计学习中在语义这个层面形成了同构。
       从这里可以看到,有些人类的学习方法和机器的学习方法,在本质上居然是一样的。所以,这也说明,GPT事实上具备一定的人类智能模式!
      随机鹦鹉模型的优点是简单易用,可以生成具有一定语法和结构的文本,缺点是生成的文本缺乏真实性和连贯性。GPT不属于随机鹦鹉,因为它是基于预先训练好的模型和规则的自然语言生成,而不是随机组合单词和短语来生成文本。从信息存储的物理限制,模型训练和文本生成过程中涌现出的抽象能力和贝叶斯推理,以及某些学习方法上的同构性,都说明GPT绝对不是随机鹦鹉模型,TA具备智能是肯定的,会产生意识吗?

    相关文章

      网友评论

          本文标题:GPT-4~从随机性到类人学习

          本文链接:https://www.haomeiwen.com/subject/kknsedtx.html