美文网首页
LLM实战:LLM微调加速神器-Unsloth+ Qwen1.5

LLM实战:LLM微调加速神器-Unsloth+ Qwen1.5

作者: mengrennwpu | 来源:发表于2024-05-15 21:21 被阅读0次

    1. 背景

    上一篇介绍了基于训练加速框架Unsloth,微调训练Llama3的显卡资源占用及训练时间对比。

    近期Unsloth新增了Qwen1.5的模型适配,因此本qiang~马不停蹄地又进行了一次实验对比。

    对Unsloth的简介,感兴趣的客观可以查阅上一篇《LLM微调加速神器:Unsloth + LLama3》。

    2. 实战

    本着眼过千遍不如手过一遍的宗旨,本qiang~针对Unsloth做了一个对比实现。

    对比的实验环境为: A800,模型为Qwen1.5-32B-Chat。

    可以使用如下命令进行更新unsloth。

    pip install "unsloth[colab-new] @  git+https://github.com/unslothai/unsloth.git"

    2.1 比对维度

    2.2 源码

    源码请见地址,由于Qwen1.5和Llama3的prompt模板不一致,因此源码层面上也稍加了改动。

    3 实验结果

    3.1 A800

    3.2 结论

    针对于Qwen1.5-32B-Chat进行unsloth训练,与基于transformers框架训练进行比对,结论如下:

    集成unsloth后,显卡占用确实更少,平均减少20%-25%,训练效率确实更快,不管是哪种维度,平均训练时间减少了27%-41%。

    使用40G显存的单卡如A40,即可进行微调训练。

    4. 总结

    一句话足矣~

    本文主要是使用unsloth框架针对Qwen1.5的高效微调实验,提供了详细的对比代码以及不同维度的对比分析结果。

    之后会研读一遍unsloth的底层源码,具体是如何使用triton语言实现加速的,以及如何手写的前馈网络和反向传播的实现~

    5. 参考

    1. unsloth:https://github.com/unslothai/unsloth

    相关文章

      网友评论

          本文标题:LLM实战:LLM微调加速神器-Unsloth+ Qwen1.5

          本文链接:https://www.haomeiwen.com/subject/fpcbfjtx.html