论文信息
name_en: Training Compute-Optimal Large Language Models
name_ch: 训练计算优化的大型语言模型
paper_addr: http://arxiv.org/abs/2203.15556
date_read: 2023-03-25
date_publish: 2022-03-29
tags: ['深度学习','自然语言处理']
author: Jordan Hoffmann,DeepMind
citation: 166
读后感
针对训练数据量,模型参数量,以及数据训练量,通过实验,得出一些结论:更长的训练时间,更多token,能提升模型效果;大模型的参数量和性能之间存在幂律分布;训练时token越多,模型效果越好,作者认为模型的大小与训练token量应等比增加。
换言之:不应该太过纠结于拟合当前的知识和存储量,更重要的是扩展知识面,另外应该多“思考”。
摘要
现在大模型严重训练不足。通过大量实验发现对于模型的每加倍size 训练令牌的数量也应该加倍。Chinchilla 使用更少的计算来进行微调和推理,极大地促进了下游应用。
介绍
可以看到,相对当时其它模型,Chinchilla使用了更多的token和更少的模型参数。
![](https://img.haomeiwen.com/i5357893/0c75a6398a4df0e4.png)
文中主要讨论了,在运算量固定的情况下,如何选择参数和token量的配比,使损失函数最小。
通过在 5 到 5000 亿个标记上训练 400 多个语言模型,范围从 7000 万到超过 160 亿个参数。如图-1所示:
![](https://img.haomeiwen.com/i5357893/f8a03e8d690f3707.png)
文中介绍Chinchilla模型是对Gopher的调整,将模型大小变为其1/4,token变为其4倍,与Gopher计算量基本一致。它不仅效果更好,还减少了模型规模,使其能在更低成本的硬件上运行。
方法
从图-2中可以看到token量,参数量和运算量的相互关系:
![](https://img.haomeiwen.com/i5357893/455aa105431666a9.png)
实验尝试了使用不同大小的训练数据,不同参数量,以及把参数量和数据规模加入Loss的惩罚,经过大量实验(论文第三部分),得出以下结论:
随着计算预算的增加,模型大小和训练数据量应该以大致相等的比例增加。
图-3展示了不同参数对应的估计训练数据量(后面的模型可以参考这个量):
![](https://img.haomeiwen.com/i5357893/16e04991408ef8cd.png)
Chinchilla模型
训练数据
![](https://img.haomeiwen.com/i5357893/9168e5c041e211c8.png)
模型结构
![](https://img.haomeiwen.com/i5357893/f95a7bfa7c432531.png)
实验
实验在阅读理解,问答,常识,MMLU等多个测试集中评测,效果是Chinchilla在绝大多数情况都优于其基础模型Gopher,其中MMLU对比效果如下(其它详见正文),对于其中几个子项(高中政治,国际法,社会学,美国外交政策)评测效果高于其它所有模型:
![](https://img.haomeiwen.com/i5357893/cabd113d212f7214.png)
收获
- 延伸阅读:Scaling laws for neural language models,被本篇引用了23次。
- FLOP是一种衡量模型计算量的指标,全称为Floating Point Operations,即浮点运算次数。在NLP中,FLOP budgets是指模型的计算量预算。
网友评论