美文网首页
《这就是Chatgpt》读书笔记

《这就是Chatgpt》读书笔记

作者: 爱看时事的通信崔 | 来源:发表于2024-05-17 15:43 被阅读0次


    关于导读部分

    1、人们常常高估技术在短期内的影响,却低估了其长期效应。今年以来,ChatGPT的用户增长出现停滞,这与用户需求、使用难度以及竞争对手等多方面因素有关。因此,ChatGPT是否能“超越信息技术历史上几乎所有的热点”,仍需进一步观察。

    2、为何是OpenAI而非谷歌、英伟达、iPhone或阿里巴巴等公司研发出了ChatGPT?这与OpenAI的研究理念和创新精神密不可分。此外,推荐阅读OpenAI的两位研究员合著的新书《伟大为什么不能被计划》,以深入了解其背后的研发思路。

    3、历经磨砺,方显宝剑之锋;经受苦寒,才得梅花之香。有关皮茨、罗森布拉特、鲁梅尔哈特、杨立昆、本吉奥、辛顿等深度学习领域的先驱者的故事,详见《深度学习革命》一书。

    4、在本书中,可以了解到以下关键概念:预测下一个字符、Decoder-Only架构、规模法则、涌现现象、模型构建、参数设置、嵌入技术、计算等价原理以及计算不可约性原理等。

    5、《大数据时代》一书中指出:“大数据的简单算法比小数据的复杂算法更有效。”这一观点与本书所探讨的“规模法则”有着异曲同工之妙。

    6、沃尔弗拉姆曾提出“万事皆计算”的观点,这反映了人工智能领域中的“符号派”思想。当然,人工智能还有其他两大流派,分别是连接派和控制派。

    一次只生成一个词

    1、合理的文本延续应符合人类的认知,即能够理解上下文语境。

    2、在生成文本时,需要考虑下一个词出现的概率。然而,如果仅选择概率最高的词,文本很容易陷入重复和死循环。例如:“我,爱,你,中,国,人,民,解,放,军,人,民,解,放,军……”为了避免这种情况,引入了“温度”的概念。温度用于调节较低概率词汇的出现机会。当温度为0.8时,文本生成效果最佳。这个0.8的数值似乎有些神秘,但实际上是通过大量实验得出的经验值。

    概率的来源

    1、“一次只生成一个词”章节中提到了概率和温度的概念。由于温度参数具有一定的经验性,因此我们将重点关注概率的探讨。概率的生成依赖于大数据的支持,通过从网络中抓取海量词汇,进而形成合理的概率分布。

    2、在ChatGPT出现之前,n-gram是一种相对简单的语言模型。它利用词频来预测句子中下一个可能出现的词。然而,这种方法在理解上下文和语法方面仍存在较大局限性。

    3、有了词汇的概率分布后,我们需要借助模型来预估整个序列的概率分布。这将是我们下一步探讨的重点。

    模型的定义

    1、模型是通过算法实现的程序。它由基本函数结构和调优参数构成。需要注意的是,模型所描述的底层规律只是一种数学上的猜测。

    2、类人任务包括图像识别、语音识别和文本生成等。为了构建能够处理这些任务的模型,我们需要深入理解神经网络的思想。

    神经网络简介

    1、神经网络是对大脑工作机制的一种理想化模拟。目前,我们无法精确描述网络中各层的具体功能。

    2、神经网络的每一层都会从不同角度分析输入信息,并最终综合这些信息以得出结果。

    3、神经网络的每一层都遵循f[w*x+b]的计算公式,其中f是固定的函数形式,w代表权重,b代表常量参数。

    机器学习与神经网络训练

    1、训练神经网络的基本方法是通过调整每一层的权重,观察输出结果与预期结果的差距,并朝着更接近预期结果的方向调整权重。

    2、神经网络可以视为一个计算函数,其输出结果取决于输入和权重。权重的调整主要依赖于试错过程。

    训练实践

    1、即使是完全不同的任务,相同的神经网络架构也可能发挥作用。

    2、“非可约的数学”与图灵的相关理论有关。我正在阅读图灵的相关论文以深入了解这一概念。

    3、“足够大”指的是神经网络的规模和复杂度达到一定程度,能够处理更加复杂的任务。目前,大型模型的规模已经达到了千亿级别。

    4、有一个重要的观点是:“能力和可训练性之间存在着一个终极权衡。系统越能充分利用其计算能力,就越表现出计算不可约性,从而越难以训练。而系统本质上越易于训练,其进行复杂计算的能力就越受限。”

    嵌入的概念

    1、嵌入是一个抽象的概念,指的是用数组来表示事物的本质特征。相似的事物会用相近的数组来表示。虽然理解嵌入的实现方式有一定难度,但作者尽力进行了科普解释。

    ChatGPT的内部原理

    1、本节主要介绍了Transformer架构的注意力机制,这是理解ChatGPT内部原理的关键。

    2、注意力机制使ChatGPT能够关注序列中最重要的部分,从而避免人工智能出现“灾难性遗忘”的问题。

    3、Transformer架构的解码器利用嵌入来生成输出。

    4、ChatGPT的操作步骤包括:输入标记序列以找到对应的嵌入;逐层处理生成新的嵌入;最后生成概率分布。

    ChatGPT的训练过程

    1、神经网络的训练包括两个步骤:提供样例和调整权重。样例必须足够多以确保训练的充分性;而权重的规模则与网络规模和训练数据的总量相匹配。

    在基础训练之外

    1、本书提出了一个巧妙的构思:利用人类来评价人工智能的输出结果,并通过另一个人工智能来预测人类的评分,从而模拟人类的反馈来优化人工智能的性能。

    2、提示词在人工智能应用中具有重要作用。通过给出适当的提示词,人工智能往往能够成功利用这些提示来生成满意的结果。

    ChatGPT的核心优势

    1、作者提出了一个大胆的假设:语言在根本上比看起来更简单。这一观点有助于我们理解ChatGPT的核心优势。

    2、逻辑是理解语言的关键。例如,亚里士多德的三段论提供了一种基本的逻辑推理模式:“所有X都是Y;这不是Y;因此这不是X”。

    意义空间和语义运动规律

    1、意义空间指的是在语言特征空间中相近的概念用相近的词来表示。

    2、语义运动规律描述了在意义空间中语言运动的规则。

    语义、语法与计算语言的力量

    1、本章内容令人震惊。作者的推断建立在这样一个假设上:如果人工智能真的能够超越人类智能水平,那么必然存在一种比人类语言更精确的计算语言来描述这个世界。

    2、更通用的语义语法能够处理简单的模式。一旦建立起整体计算语言框架,我们就能够以更精确和形式化的方式处理以前难以触及的事物。这究竟意味着什么呢?我们拭目以待。

    ChatGPT与Wolfram的比较

    1、自然语言是ChatGPT和Wolfram的共同接口,使得两者可以进行交互。Wolfram能够将从ChatGPT获得的自然语言转化为符号语言,并应用其强大的计算能力。

    2、ChatGPT给出的错误结果通常被称为“AI幻觉”。在计算方面,ChatGPT给出的是估算答案,其结果接近正确但并非完全随机,也不保证绝对正确。因此,在创意型工作中使用ChatGPT可能更为合适;而在医疗咨询等真相至关重要的场景下则应谨慎使用。

    3、与ChatGPT相比,Wolfram更像一个计算系统,能够提供精确的内容;但在生成需要创意的文本方面能力稍显不足。

    总结:

    读完这本书后,我深感其内容丰富、观点新颖。尽管有些部分(如神经网络和嵌入的概念)令人感到困惑(可能是翻译问题所致),但整体而言仍是一本值得一读的佳作。对我个人而言,“它只是一次添加一个词”“概念从何而来”“什么是模型”“在基础训练之外”“真正让ChatGPT发挥作用的是什么”等章节收获颇丰。接下来我将阅读《大模型应用开发极简入门》以期望能够更深入地了解这一领域。

    相关文章

      网友评论

          本文标题:《这就是Chatgpt》读书笔记

          本文链接:https://www.haomeiwen.com/subject/zrzifjtx.html