百度千帆大模型——基础篇

作者: 梅西爱骑车 | 来源:发表于2023-11-16 21:22 被阅读0次

王道程序员求职宝典（七）数据库基础及设计模式介绍
基础篇_1.音视频学习框架
基础篇_8.音频编码MP3\AAC
基础篇_7.音频编码WAV
基础篇_3.图像编码之Bmp
基础篇_5.音频数据采集
基础篇_4.音频基础概念
基础篇_6.音频编码PCM
从零开始学VBA PDF版
基础篇－思维模型

百度智能云千帆大模型平台（以下简称千帆或千帆大模型平台）是面向企业开发者的一站式大模型开发及服务运行平台。千帆不仅提供了包括文心一言底层模型（ERNIE-Bot）和第三方开源大模型，还提供了各种AI开发工具和整套开发环境，方便客户轻松使用和开发大模型应用。

支持数据管理、自动化模型SFT以及推理服务云端部署的一站式大模型定制服务，助力各行业的生成式AI应用需求落地。
另外一种表述：
提供一站式服务，涵盖数据集管理、模型训练、服务发布与监管。通过可视化界面实现模型全生命周期管理，简化从数据到服务的大模型实施过程

应用场景

面向不同的企业需求，千帆提供不同的功能服务。

例如，智能对话、智能输入法等通用应用场景，可在千帆直接体验文心一言企业级推理云服务，并进行业务集成；

概念

常见概念：点击链接。

快速开始

https://cloud.baidu.com/doc/WENXINWORKSHOP/s/sliu72738

流程说明

千帆大模型平台覆盖从数据管理、数据标注、模型开发、模型纳管、部署上线的AI能力研发与应用全生命周期建设和管理。接入文心大模型算法和开放第三方业内知名的模型算法，降低全流程AI开发门槛。
平台支持SFT，准备内容可参考SFT快速调优。

实现步骤

在您完成注册后，可以登录到千帆大模型操作台，只要以下6个步骤即可快速完成大模型定制及测试效果的全过程。

数据导入-> 数据标注-> 训练配置-> 模型纳管-> 发布服务-> 体验测试

Step1:数据导入

需要您在左侧功能栏选择“数据管理 > 数据集管理”，进入数据总览界面，选择创建数据集。

数据集管理

进入“创建数据集”界面，填写数据集名称后，标注类型选择文本对话-非排序类型，选择平台存储，“创建并导入”。

3.在导入配置中，按实际需求填写导入方式以及对应的格式或路径，上传无标注文件或者链接内容等，确认即可。
文件要求：
1）. 文件内单条数据格式要求为[{"prompt" ：“prompt内容”}]。
2）. 每一行表示一组数据，每组数据中的prompt字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断。
3）.支持文本文件类型为jsonl，编码仅支持UTF-8，单次上传限制100个文本文件，单个文件不超过100M。 |
文件名：prompt-unannotated-byguoxiuzhi.jsonl
文件内容：

[{"prompt": "请根据下面的新闻生成摘要, 内容如下:习近平在亚太经合组织工商领导人峰会上的书面演讲。很高兴应邀出席亚太经合组织工商领导人峰会。多年前我曾到访旧金山，这座美丽城市的开放、包容、创新给我留下深刻印象。
30年前，面对冷战结束后“人类向何处去”的世界之问、历史之问、时代之问，亚太地区领导人顺应和平和发展的时代潮流，召开了首次亚太经合组织领导人非正式会议，一致同意超越集团对抗、零和博弈的旧思维，深化区域经济合作和一体化，致力于共建一个活力、和谐、繁荣的亚太大家庭。这一重大决定推动亚太发展和经济全球化进入快车道，助力亚太成为世界经济增长中心、全球发展稳定之锚和合作高地。亚太合作的非凡历程带给我们许多深刻启示。——开放包容是亚太合作的主旋律。亚太发展靠的是开放包容、取长补短、互通有无，而不是对立对抗、以邻为壑、“小院高墙”。我们秉持开放的区域主义，共同制定了茂物目标和布特拉加亚愿景，推进贸易和投资自由化便利化，提升区域经济一体化水平。过去30年，亚太地区平均关税水平从17%下降至5%，对世界经济增长的贡献达到七成。共同发展是亚太合作的总目标。发展是亚太地区永恒的主题。我们始终聚焦发展，不断深化经济技术合作，增强发展中成员自主发展能力。我们共同开创了自主自愿、协商一致、循序渐进的“亚太经合组织方式”，尊重各成员发展权。过去30年，亚太地区人均收入翻了两番还要多，十亿人口成功脱贫，为人类进步和全球可持续发展作出重要贡献。求同存异是亚太合作的好做法。亚太地区经济体历史文化和发展阶段不同，在亚太地区推进合作不能要求整齐划一，只能走求同存异的路子。过去30年，我们妥善应对亚洲金融危机、国际金融危机等重大挑战，维护了亚太经济发展的良好势头，靠的就是谋大势、顾大局，弘扬和而不同、和衷共济的伙伴精神，不断将成员多样性转化为合作动力，优势互补，携手共进。\n生成摘要如下:"}]
[{"prompt": "请根据下面的新闻生成摘要, 内容如下:习近平会见日本首相岸田文雄。习近平指出，今年，中日双方共同纪念了邦交正常化50周年。50年来，双方先后达成4个政治文件和一系列重要共识，各领域交流合作成果丰硕，给两国人民带来重要福祉，也促进了地区和平、发展、繁荣。中日互为近邻，同为亚洲和世界重要国家，拥有很多共同利益和合作空间。中日关系的重要性没有变，也不会变。中方愿同日方一道，从战略高度把握好两国关系大方向，构建契合新时代要求的中日关系。习近平强调，双方应该以诚相待、以信相交，恪守中日四个政治文件原则，总结汲取历史经验，客观理性看待彼此发展，将“互为合作伙伴、互不构成威胁”的政治共识体现到政策中去。历史、台湾等重大原则问题涉及两国关系政治基础和基本信义，必须重信守诺、妥善处之。中国不干涉别国内政，也不接受任何人以任何借口干涉中国内政。习近平强调，中日两国社会制度和国情不同，双方应该相互尊重，增信释疑。在海洋和领土争端问题上，要恪守已经达成的原则共识，拿出政治智慧和担当妥善管控分歧。双方要继续发挥地理相近、人文相通的独特优势，开展政府、政党、议会、地方等各渠道交往交流，尤其要着眼长远，积极开展青少年交流，塑造相互客观积极认知，促进民心相通。习近平指出，两国经济相互依存度很高，要在数字经济、绿色发展、财政金融、医疗养老、维护产业链供应链稳定畅通等方面加强对话合作，实现更高水平优势互补和互利共赢。两国应该着眼各自长远利益和地区共同利益，坚持战略自主、睦邻善邻，抵制冲突对抗，践行真正的多边主义，推进区域一体化进程，共同把亚洲发展好、建设好，应对全球性挑战。\n生成摘要如下:"}]

上传时一定要注意是否有因格式不对失败的情况。成功上传全部prompt后再详情页看到数据集的内容列表。

数据集新增版本。

新版本

更多操作，可见数据服务使用说明。

Step2:数据标注

在数据集列表中，找到以上创建的数据集，点击操作列的“标注”按钮。当光标移动至回答框，会有“自动生成”按钮，回答支持调用平台的LLM模型为问题生成对应回答，可在左上角切换模型。

自动生成回答需先开通服务

找到服务名去开通收费。

查找服务名称

开通服务。

您可以选择自动生成回答或手动生成回答，回答生成后“保存标注”即可。
标注好的文本数据，将会在“有标注信息”页签下展示。

发布数据集：

图片数据集
新建数据集选择“文生图”。

文生图
上传素材图片。

进行标注，写prompt信息。

填写prompt信息

数据处理，异常清洗配置如下所示：
1）移除不可见字符：移除ASCII中的一些不可见字符, 如0-32 和127-160这两个范围。
2）规范化空格：将不同的unicode空格比如 u2008，转成正常的空格。
3）去除乱码：去除乱码和无意义的unicode。
4）繁体转简体：将文档中的繁体字转换成简体。
5）去除网页标识符：移除文档中的html标签，如<html>,<dev>,<p>等。
6）去除表情符：去除表情符如emoji

。

更多操作，可见在线标注使用说明。

Step3:训练配置

SFT最佳实践：https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Xlkb0e6eu

需要您在左侧功能栏中选择“模型精调 > SFT”中创建调优任务，进入模型准备界面，按实际情况进行模型选择、模型名称、所属行业、应用场景和业务描述的选择或填写。
## 选择SFT的超参数

EPOCH 影响比 LR 大，可以根据数据规模适当调整EPOCH大小，例如小数据量可以适当增大epoch，让模型充分收敛。
- 例如：EPOCH：100条数据时, Epoch为15，1000条数据时, Epoch为10，10000条数据时, Epoch为2。
- 过高的epoch可能会带来通用NLP能力的遗忘，这里需要您根据实际需求核定，若您只需要下游能力提升，则通用NLP能力的略微下降影响不大。若您非常在乎通用NLP能力，平台侧也提供过来种子数据来尽可能保证通用NLP能力不降低太多。
适当增加global batch_size ：如增加accumulate step 32 64，当分布式节点增多时可以进一步增加batch_size，提高吞吐。
学习率(LR, learning Rate): 对于ptuing/lora等peft训练方式，同时可以适当增大LR。

点击“创建并训练”，继续完善调优任务，调整训练配置及参数（BLOOMZ-7B为例）,不开启增量训练。
注意：训练的数据需要32条及以上。

选择Step1中创建的数据集进行导入，并填入数据拆分比例。

4.以上步骤都完成后，点击“确定”按钮，即可进入自定义模型的训练，当任务详情中的模型运行显示“运行完成”，则表示模型训练成功。

开始进行SFT训练

训练日志：

模型评估
在人工智能模型开发过程中，通常是将数据集划分为训练集、验证集和测试集三个部分。其中，训练集用来训练模型，验证集则用于调整模型的超参数和选择合适的模型，而测试集则是在模型训练完成后，用于最终评估模型的性能，这就是评估数据集（即测试集）。
评估数据集通常是在与训练数据集相似的情况下收集的，因此可以用来代表真实世界的样本数据。通过对评估数据集的评估，可以了解模型在不同场景下的表现，从而更好地优化模型。同时，评估数据集还可以用来验证模型的泛化能力，即模型在未见过的数据上的表现如何。
登录到千帆大模型操作台，在左侧功能列选择模型评估，进入模型评估主任务界面。
点击“创建评估任务”按钮，进入新建评估任务页面。

新建评估任务
基于裁判员（默认裁判员为ERNIE-Bot）进行打分。

点击确定后，开始评估。

评估中

评估报告：

更多操作，可见SFT任务使用说明。

Step4:模型纳管

选择Step3运行中的“发布”，填写新模型发布相关内容，将模型纳入模型管理模块。
进入“我的模型”查看刚刚训练的模型。

我的模型
压缩模型，通过量化、稀疏化等方法在尽量减少精度损失的前提下，降低AI加速卡资源占用，提高推理速度。

压缩详情
压缩过程很费时间，Preparing model files和Start compressing task最耗时。

更多操作，可见本章模型管理内容。

Step5:发布服务

需要您在左侧功能栏中选择“模型服务 > 在线服务”，选择“创建服务”按钮，或者直接在Step4模型详情中的版本列表页，选择指定模型“部署”。
按照实际需要，进行服务配置和资源配置。
发布成功后，“模型服务 > 在线服务”中即可列表展示服务内容。

发布服务到私有资源池，通过API接口调用模型。更多操作，可见本章服务管理使用说明内容。

Step6:体验测试

在左侧功能列的体验中心，选择自训练模型和参数配置，进行在线测试。详细可见体验测试使用说明，参数配置列选择本服务。

选择自己部署的模型。

如果需进行“应用创建”，可移步至应用接入。

王道程序员求职宝典（七）数据库基础及设计模式介绍
第四篇其他计算机相关基础数据库基础知识数据库理论数据模型分类概念模型逻辑模型关系模型物理模型组成数据结构数据...
基础篇_1.音视频学习框架
学习整理的相关章节链接：基础篇_1.音视频学习框架基础篇_2. 颜色空间模型 RBG、YUV、HSV基础篇_3.图...
基础篇_8.音频编码MP3\AAC
学习整理的相关章节链接：基础篇_1.音视频学习框架基础篇_2. 颜色空间模型 RBG、YUV、HSV基础篇_3.图...
基础篇_7.音频编码WAV
学习整理的相关章节链接：基础篇_1.音视频学习框架基础篇_2. 颜色空间模型 RBG、YUV、HSV基础篇_3.图...
基础篇_3.图像编码之Bmp
学习整理的相关章节链接：基础篇_1.音视频学习框架基础篇_2. 颜色空间模型 RBG、YUV、HSV基础篇_3.图...
基础篇_5.音频数据采集
学习整理的相关章节链接：基础篇_1.音视频学习框架基础篇_2. 颜色空间模型 RBG、YUV、HSV基础篇_3.图...
基础篇_4.音频基础概念
学习整理的相关章节链接：基础篇_1.音视频学习框架基础篇_2. 颜色空间模型 RBG、YUV、HSV基础篇_3.图...
基础篇_6.音频编码PCM
学习整理的相关章节链接：基础篇_1.音视频学习框架基础篇_2. 颜色空间模型 RBG、YUV、HSV基础篇_3.图...
从零开始学VBA PDF版
本书主要分为6篇，包括Excel VBA准备篇、Excel VBA基础篇、Excel VBA对象模型篇、Excel...
基础篇－思维模型