大模型介绍及试用

作者: 朴本无名 | 来源:发表于2024-07-04 12:22 被阅读0次

偶然的机会，我在公司最近的研发活动中，对大模型有了更加深入的了解，在此分享给大家，一起进步。

去年自从chatG.P.T突然火起来之后，生活中“大模型”被提到的越来越多。无论在我们的工作还是生活中，或多或少都有了初步的应用，如简书内一些网友试用了大模型来生成来写文章、写小说，使用效果也是褒贬不一，那究竟什么事大模型呢，它的实现原理是什么，它的强项是什么，有没有传说中的那么强大呢，让我们来一起探讨下。

首先说我的结论：大模型确实很强大，但也毋需神话，它目前还不具备真正的智能，但确实可以作为我们工作或生活中的强力助手。

大模型全称大语言模型（Large Language Model），是人工智能（AI）的一个子领域，专注于自然语言处理。通过大量文本数据的训练，能够生成和理解人类语言，常见的大模型工具有百度的文心一言、科大讯飞的星火大模型、华为的盘古大模型以及Open.AI的G.P.T系列等等。

大语言模型的实现原理是通过数学建模，模拟人类大脑的神经网络结构。这些模型参考神经突触的连接方式，设置了大量参数（可达数万亿级）进行训练。在训练过程中，通过大量的数据输入不断调整和优化参数，以实现知识学习和储备。最终，这些模型具备了强大的文本生成能力（广义上可以解释为具备一定的理解能力）。大语言模型在文本交互和生成方面表现出色，但其逻辑推理能力相对较弱。

和人类一样，大语言模型必须经过学习（预训练）之后才能拥有智能。其学习的材料（语料）包括标准知识（如各国语言字典、辞典、教科书、论文等）、小说文献、报纸期刊以及庞大的互联网信息（如百度、维基百科、各种论坛、购物网站等）。学习材料的质量高低、内容好坏以及数量多少，都会影响大语言模型的能力。高质量、相关性强且数量充足的学习材料可以显著提高模型的表现和准确性。

与我们人类上学进修类似，大模型也是需要花费大量的时间和金钱成本进行学习。以chatG.P.T4为例子，训练一次G.P.T-4的实际成本大约在4-5亿人民币，时间大约3个月左右，更为重要的是，使用了拥有25000个NVIDIA A100 GPU显卡的超级计算机。而这种高端显卡美国禁止销售中国，这也大大阻碍了我国大模型技术的发展。--我们整个公司才拥有几十个中端显卡，技术如何追赶！

大模型训练好了之后就可以实际应用了，它的实际能力如何呢：

还是以chatG.P.T4为例，有科研机构试验，用G.P.T-4来作答今年的高考题，得分在一本线左右，语文、外语成绩优秀，数学不及格，其他科目70%正确率左右。

我也实际测试过，结论和上面类似，大模型在处理自然语言任务方面表现出色，可以生成高质量的文本，并在许多应用中提供有用的帮助。然而，它缺乏人类的常识、理解力和自我意识，能力仍然有限，不能完全替代人类的智能和判断力。

下面附上几个例子，实际印证下大模型的真实能力，还是以chatG.P.T4为例：

1、看图写话（小学语文，回答文笔不错）