《这就是Chatgpt》读书笔记

作者: 爱看时事的通信崔 | 来源:发表于2024-05-17 15:43 被阅读0次

由ChatGPT想到的
来看一个 ChatGPT 有关程序员的笑话
5分钟扫盲chatGPT与OpenAI编程(for 开发者)
ChatGPT将革搜索引擎的命吗？
突然有个东西很火，叫做chatGPT
ChatGpt将改变世界，你做好准备了吗？
Java 中如何限制方法的返回时间
ChatGPT技术报告
ChatGPT
ChatGPT

关于导读部分

1、人们常常高估技术在短期内的影响，却低估了其长期效应。今年以来，ChatGPT的用户增长出现停滞，这与用户需求、使用难度以及竞争对手等多方面因素有关。因此，ChatGPT是否能“超越信息技术历史上几乎所有的热点”，仍需进一步观察。

2、为何是OpenAI而非谷歌、英伟达、iPhone或阿里巴巴等公司研发出了ChatGPT？这与OpenAI的研究理念和创新精神密不可分。此外，推荐阅读OpenAI的两位研究员合著的新书《伟大为什么不能被计划》，以深入了解其背后的研发思路。

3、历经磨砺，方显宝剑之锋；经受苦寒，才得梅花之香。有关皮茨、罗森布拉特、鲁梅尔哈特、杨立昆、本吉奥、辛顿等深度学习领域的先驱者的故事，详见《深度学习革命》一书。

4、在本书中，可以了解到以下关键概念：预测下一个字符、Decoder-Only架构、规模法则、涌现现象、模型构建、参数设置、嵌入技术、计算等价原理以及计算不可约性原理等。

5、《大数据时代》一书中指出：“大数据的简单算法比小数据的复杂算法更有效。”这一观点与本书所探讨的“规模法则”有着异曲同工之妙。

6、沃尔弗拉姆曾提出“万事皆计算”的观点，这反映了人工智能领域中的“符号派”思想。当然，人工智能还有其他两大流派，分别是连接派和控制派。

一次只生成一个词

1、合理的文本延续应符合人类的认知，即能够理解上下文语境。

2、在生成文本时，需要考虑下一个词出现的概率。然而，如果仅选择概率最高的词，文本很容易陷入重复和死循环。例如：“我，爱，你，中，国，人，民，解，放，军，人，民，解，放，军……”为了避免这种情况，引入了“温度”的概念。温度用于调节较低概率词汇的出现机会。当温度为0.8时，文本生成效果最佳。这个0.8的数值似乎有些神秘，但实际上是通过大量实验得出的经验值。

概率的来源

1、“一次只生成一个词”章节中提到了概率和温度的概念。由于温度参数具有一定的经验性，因此我们将重点关注概率的探讨。概率的生成依赖于大数据的支持，通过从网络中抓取海量词汇，进而形成合理的概率分布。

2、在ChatGPT出现之前，n-gram是一种相对简单的语言模型。它利用词频来预测句子中下一个可能出现的词。然而，这种方法在理解上下文和语法方面仍存在较大局限性。

3、有了词汇的概率分布后，我们需要借助模型来预估整个序列的概率分布。这将是我们下一步探讨的重点。

模型的定义

1、模型是通过算法实现的程序。它由基本函数结构和调优参数构成。需要注意的是，模型所描述的底层规律只是一种数学上的猜测。

2、类人任务包括图像识别、语音识别和文本生成等。为了构建能够处理这些任务的模型，我们需要深入理解神经网络的思想。

神经网络简介

1、神经网络是对大脑工作机制的一种理想化模拟。目前，我们无法精确描述网络中各层的具体功能。

2、神经网络的每一层都会从不同角度分析输入信息，并最终综合这些信息以得出结果。

3、神经网络的每一层都遵循f[w*x+b]的计算公式，其中f是固定的函数形式，w代表权重，b代表常量参数。

机器学习与神经网络训练

1、训练神经网络的基本方法是通过调整每一层的权重，观察输出结果与预期结果的差距，并朝着更接近预期结果的方向调整权重。

2、神经网络可以视为一个计算函数，其输出结果取决于输入和权重。权重的调整主要依赖于试错过程。

训练实践

1、即使是完全不同的任务，相同的神经网络架构也可能发挥作用。

2、“非可约的数学”与图灵的相关理论有关。我正在阅读图灵的相关论文以深入了解这一概念。

3、“足够大”指的是神经网络的规模和复杂度达到一定程度，能够处理更加复杂的任务。目前，大型模型的规模已经达到了千亿级别。

4、有一个重要的观点是：“能力和可训练性之间存在着一个终极权衡。系统越能充分利用其计算能力，就越表现出计算不可约性，从而越难以训练。而系统本质上越易于训练，其进行复杂计算的能力就越受限。”

嵌入的概念

1、嵌入是一个抽象的概念，指的是用数组来表示事物的本质特征。相似的事物会用相近的数组来表示。虽然理解嵌入的实现方式有一定难度，但作者尽力进行了科普解释。

ChatGPT的内部原理

1、本节主要介绍了Transformer架构的注意力机制，这是理解ChatGPT内部原理的关键。

2、注意力机制使ChatGPT能够关注序列中最重要的部分，从而避免人工智能出现“灾难性遗忘”的问题。

3、Transformer架构的解码器利用嵌入来生成输出。

4、ChatGPT的操作步骤包括：输入标记序列以找到对应的嵌入；逐层处理生成新的嵌入；最后生成概率分布。

ChatGPT的训练过程

1、神经网络的训练包括两个步骤：提供样例和调整权重。样例必须足够多以确保训练的充分性；而权重的规模则与网络规模和训练数据的总量相匹配。

在基础训练之外

1、本书提出了一个巧妙的构思：利用人类来评价人工智能的输出结果，并通过另一个人工智能来预测人类的评分，从而模拟人类的反馈来优化人工智能的性能。

2、提示词在人工智能应用中具有重要作用。通过给出适当的提示词，人工智能往往能够成功利用这些提示来生成满意的结果。

ChatGPT的核心优势

1、作者提出了一个大胆的假设：语言在根本上比看起来更简单。这一观点有助于我们理解ChatGPT的核心优势。

2、逻辑是理解语言的关键。例如，亚里士多德的三段论提供了一种基本的逻辑推理模式：“所有X都是Y；这不是Y；因此这不是X”。

意义空间和语义运动规律

1、意义空间指的是在语言特征空间中相近的概念用相近的词来表示。

2、语义运动规律描述了在意义空间中语言运动的规则。

语义、语法与计算语言的力量

1、本章内容令人震惊。作者的推断建立在这样一个假设上：如果人工智能真的能够超越人类智能水平，那么必然存在一种比人类语言更精确的计算语言来描述这个世界。

2、更通用的语义语法能够处理简单的模式。一旦建立起整体计算语言框架，我们就能够以更精确和形式化的方式处理以前难以触及的事物。这究竟意味着什么呢？我们拭目以待。

ChatGPT与Wolfram的比较

1、自然语言是ChatGPT和Wolfram的共同接口，使得两者可以进行交互。Wolfram能够将从ChatGPT获得的自然语言转化为符号语言，并应用其强大的计算能力。

2、ChatGPT给出的错误结果通常被称为“AI幻觉”。在计算方面，ChatGPT给出的是估算答案，其结果接近正确但并非完全随机，也不保证绝对正确。因此，在创意型工作中使用ChatGPT可能更为合适；而在医疗咨询等真相至关重要的场景下则应谨慎使用。

3、与ChatGPT相比，Wolfram更像一个计算系统，能够提供精确的内容；但在生成需要创意的文本方面能力稍显不足。

总结：

读完这本书后，我深感其内容丰富、观点新颖。尽管有些部分（如神经网络和嵌入的概念）令人感到困惑（可能是翻译问题所致），但整体而言仍是一本值得一读的佳作。对我个人而言，“它只是一次添加一个词”“概念从何而来”“什么是模型”“在基础训练之外”“真正让ChatGPT发挥作用的是什么”等章节收获颇丰。接下来我将阅读《大模型应用开发极简入门》以期望能够更深入地了解这一领域。

由ChatGPT想到的
文/阿斌最近有一个词特别火，那就是“ChatGPT”。 “ChatGPT”，全名：Chat Generative...
来看一个 ChatGPT 有关程序员的笑话
我们把 ChatGPT 集成到我们的公众号里面了，忍不住每天都想问个笑话。现在的问题就是 ChatGPT 的返...
5分钟扫盲chatGPT与OpenAI编程(for 开发者)
一、chatGPT与OpenAI ChatGPT 是 OpenAI 公司的一个技术产品，chatGPT使用了 GP...
ChatGPT将革搜索引擎的命吗？
今天在抖音偶然看到有个自媒体说起chatGPT，最近多次在网络上看到讲chatGPT的，简单来讲就是人工智能的一个...
突然有个东西很火，叫做chatGPT
最近，有个东西突然很火，叫做chatGPT，由此带动了一大批股票上涨。没文化，百度一下，这chatGPT是一个人...
ChatGpt将改变世界，你做好准备了吗？
近期，ChatGpt突然又成了朋友圈的热门话题，朋友们各种晒ChatGpt的回答，也有人在贩卖ChatGpt带来的...
Java 中如何限制方法的返回时间
最近在研究 ChatGPT 的 API 调用。因为 ChatGPT 的 API 调用时间通常超过 30 秒。所...
ChatGPT技术报告
ChatGPT技术报告 ChatGPT是一个由OpenAI开发的大型语言模型，是GPT（Generative Pr...
ChatGPT
Google 研究者发表了题为“大型语言模型的涌现能力”（Emergent Abilities of Large ...
ChatGPT
ChatGPT，这两天才关注到的一款AI软件，据说功能非常强大，能写代码，能给出综合性的答案和建议，不用深度思考的...