美文网首页AI大模型
大模型基础概念简析

大模型基础概念简析

作者: 一钱科技 | 来源:发表于2024-05-14 18:06 被阅读0次

tokens

  tokens是模型处理文本的基本单位。通常由分词器生成,分词器将一段文本拆分成多个tokens,可以是单词、标点符号、数字、特殊字符或子词。在NLP中,一个 "token" 通常是指文本中的一个元素或单位。
  一般情况下,1000 tokens大约对应750个字符(包括标点等字符),大约对应400~500个汉字。

参数量

  参数具体体现在模型的复杂性和容量上。在自然语言处理(NLP)和深度学习领域,模型参数是指神经网络中的权重和偏置等可调整的变量,用于训练和优化神经网络的性能,参数的数量决定了模型能够捕捉到的数据中的细节和模式数量。
  参数中的“B”通常代表十亿(Billion),参数亮7B、66B分别表示模型大约有70亿个、660亿个参数。

训练数据量

  训练数据量是指用于训练机器学习或深度学习模型的数据集的大小。

  • 泛化能力:较大的数据集通常包含更多的变化和多样性,这有助于模型学习更通用的表示,从而更好地泛化到未见过的数据。
  • 过拟合:当训练数据量较小时,模型可能会过于关注训练数据中的噪声或异常值,导致在测试数据上表现不佳。
  • 欠拟合:当训练数据量不足以捕捉数据的复杂性时,模型可能无法学习到数据的真正结构,也会导致性能下降。

上下文长度

  自然语言处理(NLP)和深度学习领域,上下文长度通常用于描述模型在生成新的文本或理解输入的语句时,可以处理的最大文本长度。通常是以“token”作为计算单位

相关文章

网友评论

    本文标题:大模型基础概念简析

    本文链接:https://www.haomeiwen.com/subject/csimfjtx.html