美文网首页
百度千帆大模型——基础篇

百度千帆大模型——基础篇

作者: 梅西爱骑车 | 来源:发表于2023-11-16 21:22 被阅读0次

    百度智能云千帆大模型平台(以下简称千帆或千帆大模型平台)是面向企业开发者的一站式大模型开发及服务运行平台。千帆不仅提供了包括文心一言底层模型(ERNIE-Bot)和第三方开源大模型,还提供了各种AI开发工具和整套开发环境,方便客户轻松使用和开发大模型应用。

    支持数据管理、自动化模型SFT以及推理服务云端部署的一站式大模型定制服务,助力各行业的生成式AI应用需求落地。
    另外一种表述:
    提供一站式服务,涵盖数据集管理、模型训练、服务发布与监管。通过可视化界面实现模型全生命周期管理,简化从数据到服务的大模型实施过程

    应用场景

    面向不同的企业需求,千帆提供不同的功能服务。

    例如,智能对话、智能输入法等通用应用场景,可在千帆直接体验文心一言企业级推理云服务,并进行业务集成;

    概念

    常见概念:点击链接

    快速开始

    https://cloud.baidu.com/doc/WENXINWORKSHOP/s/sliu72738

    流程说明

    千帆大模型平台覆盖从数据管理、数据标注、模型开发、模型纳管、部署上线的AI能力研发与应用全生命周期建设和管理。接入文心大模型算法和开放第三方业内知名的模型算法,降低全流程AI开发门槛。
    平台支持SFT,准备内容可参考SFT快速调优

    实现步骤

    在您完成注册后,可以登录到千帆大模型操作台,只要以下6个步骤即可快速完成大模型定制及测试效果的全过程。

    数据导入-> 数据标注-> 训练配置-> 模型纳管-> 发布服务-> 体验测试

    Step1:数据导入

    1. 需要您在左侧功能栏选择“数据管理 > 数据集管理”,进入数据总览界面,选择创建数据集。
    数据集管理
    1. 进入“创建数据集”界面,填写数据集名称后,标注类型选择文本对话-非排序类型,选择平台存储,“创建并导入”。


    3.在导入配置中,按实际需求填写导入方式以及对应的格式或路径,上传无标注文件或者链接内容等,确认即可。
    文件要求:
    1). 文件内单条数据格式要求为[{"prompt" :“prompt内容”}]。
    2). 每一行表示一组数据,每组数据中的prompt字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。
    3).支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
    文件名:prompt-unannotated-byguoxiuzhi.jsonl
    文件内容:

    [{"prompt": "请根据下面的新闻生成摘要, 内容如下:习近平在亚太经合组织工商领导人峰会上的书面演讲。很高兴应邀出席亚太经合组织工商领导人峰会。多年前我曾到访旧金山,这座美丽城市的开放、包容、创新给我留下深刻印象。
    30年前,面对冷战结束后“人类向何处去”的世界之问、历史之问、时代之问,亚太地区领导人顺应和平和发展的时代潮流,召开了首次亚太经合组织领导人非正式会议,一致同意超越集团对抗、零和博弈的旧思维,深化区域经济合作和一体化,致力于共建一个活力、和谐、繁荣的亚太大家庭。这一重大决定推动亚太发展和经济全球化进入快车道,助力亚太成为世界经济增长中心、全球发展稳定之锚和合作高地。亚太合作的非凡历程带给我们许多深刻启示。——开放包容是亚太合作的主旋律。亚太发展靠的是开放包容、取长补短、互通有无,而不是对立对抗、以邻为壑、“小院高墙”。我们秉持开放的区域主义,共同制定了茂物目标和布特拉加亚愿景,推进贸易和投资自由化便利化,提升区域经济一体化水平。过去30年,亚太地区平均关税水平从17%下降至5%,对世界经济增长的贡献达到七成。共同发展是亚太合作的总目标。发展是亚太地区永恒的主题。我们始终聚焦发展,不断深化经济技术合作,增强发展中成员自主发展能力。我们共同开创了自主自愿、协商一致、循序渐进的“亚太经合组织方式”,尊重各成员发展权。过去30年,亚太地区人均收入翻了两番还要多,十亿人口成功脱贫,为人类进步和全球可持续发展作出重要贡献。求同存异是亚太合作的好做法。亚太地区经济体历史文化和发展阶段不同,在亚太地区推进合作不能要求整齐划一,只能走求同存异的路子。过去30年,我们妥善应对亚洲金融危机、国际金融危机等重大挑战,维护了亚太经济发展的良好势头,靠的就是谋大势、顾大局,弘扬和而不同、和衷共济的伙伴精神,不断将成员多样性转化为合作动力,优势互补,携手共进。\n生成摘要如下:"}]
    [{"prompt": "请根据下面的新闻生成摘要, 内容如下:习近平会见日本首相岸田文雄。习近平指出,今年,中日双方共同纪念了邦交正常化50周年。50年来,双方先后达成4个政治文件和一系列重要共识,各领域交流合作成果丰硕,给两国人民带来重要福祉,也促进了地区和平、发展、繁荣。中日互为近邻,同为亚洲和世界重要国家,拥有很多共同利益和合作空间。中日关系的重要性没有变,也不会变。中方愿同日方一道,从战略高度把握好两国关系大方向,构建契合新时代要求的中日关系。习近平强调,双方应该以诚相待、以信相交,恪守中日四个政治文件原则,总结汲取历史经验,客观理性看待彼此发展,将“互为合作伙伴、互不构成威胁”的政治共识体现到政策中去。历史、台湾等重大原则问题涉及两国关系政治基础和基本信义,必须重信守诺、妥善处之。中国不干涉别国内政,也不接受任何人以任何借口干涉中国内政。习近平强调,中日两国社会制度和国情不同,双方应该相互尊重,增信释疑。在海洋和领土争端问题上,要恪守已经达成的原则共识,拿出政治智慧和担当妥善管控分歧。双方要继续发挥地理相近、人文相通的独特优势,开展政府、政党、议会、地方等各渠道交往交流,尤其要着眼长远,积极开展青少年交流,塑造相互客观积极认知,促进民心相通。习近平指出,两国经济相互依存度很高,要在数字经济、绿色发展、财政金融、医疗养老、维护产业链供应链稳定畅通等方面加强对话合作,实现更高水平优势互补和互利共赢。两国应该着眼各自长远利益和地区共同利益,坚持战略自主、睦邻善邻,抵制冲突对抗,践行真正的多边主义,推进区域一体化进程,共同把亚洲发展好、建设好,应对全球性挑战。\n生成摘要如下:"}]
    

    上传时一定要注意是否有因格式不对失败的情况。成功上传全部prompt后再详情页看到数据集的内容列表。



    数据集新增版本。


    新版本

    更多操作,可见数据服务使用说明

    Step2:数据标注

    在数据集列表中,找到以上创建的数据集,点击操作列的“标注”按钮。当光标移动至回答框,会有“自动生成”按钮,回答支持调用平台的LLM模型为问题生成对应回答,可在左上角切换模型。

    自动生成回答需先开通服务

    找到服务名去开通收费。


    查找服务名称

    开通服务。

    • 您可以选择自动生成回答或手动生成回答,回答生成后“保存标注”即可。
    • 标注好的文本数据,将会在“有标注信息”页签下展示。

    发布数据集:


    图片数据集
    新建数据集选择“文生图”。

    文生图
    上传素材图片。

    进行标注,写prompt信息。
    填写prompt信息

    数据处理,异常清洗配置如下所示:
    1)移除不可见字符:移除ASCII中的一些不可见字符, 如0-32 和127-160这两个范围。
    2)规范化空格:将不同的unicode空格比如  u2008,转成正常的空格。
    3)去除乱码:去除乱码和无意义的unicode。
    4)繁体转简体:将文档中的繁体字转换成简体。
    5)去除网页标识符:移除文档中的html标签,如<html>,<dev>,<p>等。
    6)去除表情符:去除表情符如emoji

    更多操作,可见在线标注使用说明

    Step3:训练配置

    SFT最佳实践:https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Xlkb0e6eu

    1. 需要您在左侧功能栏中选择“模型精调 > SFT”中创建调优任务,进入模型准备界面,按实际情况进行模型选择、模型名称、所属行业、应用场景和业务描述的选择或填写。
      ## 选择SFT的超参数
    • EPOCH 影响比 LR 大,可以根据数据规模适当调整EPOCH大小,例如小数据量可以适当增大epoch,让模型充分收敛。

      • 例如:EPOCH:100条数据时, Epoch为15,1000条数据时, Epoch为10,10000条数据时, Epoch为2
      • 过高的epoch可能会带来通用NLP能力的遗忘,这里需要您根据实际需求核定,若您只需要下游能力提升,则通用NLP能力的略微下降影响不大。若您非常在乎通用NLP能力,平台侧也提供过来种子数据来尽可能保证通用NLP能力不降低太多。
    • 适当增加global batch_size :如增加accumulate step 32 64,当分布式节点增多时可以进一步增加batch_size,提高吞吐。

    • 学习率(LR, learning Rate): 对于ptuing/lora等peft训练方式,同时可以适当增大LR。


    1. 点击“创建并训练”,继续完善调优任务,调整训练配置及参数(BLOOMZ-7B为例),不开启增量训练。
      注意:训练的数据需要32条及以上。
    1. 选择Step1中创建的数据集进行导入,并填入数据拆分比例。

    4.以上步骤都完成后,点击“确定”按钮,即可进入自定义模型的训练,当任务详情中的模型运行显示“运行完成”,则表示模型训练成功。


    开始进行SFT训练

    训练日志:


    模型评估
    在人工智能模型开发过程中,通常是将数据集划分为训练集、验证集和测试集三个部分。其中,训练集用来训练模型,验证集则用于调整模型的超参数和选择合适的模型,而测试集则是在模型训练完成后,用于最终评估模型的性能,这就是评估数据集(即测试集)。
    评估数据集通常是在与训练数据集相似的情况下收集的,因此可以用来代表真实世界的样本数据。通过对评估数据集的评估,可以了解模型在不同场景下的表现,从而更好地优化模型。同时,评估数据集还可以用来验证模型的泛化能力,即模型在未见过的数据上的表现如何。
    登录到千帆大模型操作台,在左侧功能列选择模型评估,进入模型评估主任务界面。
    点击“创建评估任务”按钮,进入新建评估任务页面。

    新建评估任务
    基于裁判员(默认裁判员为ERNIE-Bot)进行打分。

    点击确定后,开始评估。
    评估中

    评估报告:


    更多操作,可见SFT任务使用说明

    Step4:模型纳管

    选择Step3运行中的“发布”,填写新模型发布相关内容,将模型纳入模型管理模块。
    进入“我的模型”查看刚刚训练的模型。

    我的模型
    压缩模型,通过量化、稀疏化等方法在尽量减少精度损失的前提下,降低AI加速卡资源占用,提高推理速度。

    压缩详情
    压缩过程很费时间,Preparing model files和Start compressing task最耗时。

    更多操作,可见本章模型管理内容

    Step5:发布服务

    1. 需要您在左侧功能栏中选择“模型服务 > 在线服务”,选择“创建服务”按钮,或者直接在Step4模型详情中的版本列表页,选择指定模型“部署”。

    2. 按照实际需要,进行服务配置和资源配置

    3. 发布成功后,“模型服务 > 在线服务”中即可列表展示服务内容。

    发布服务到私有资源池,通过API接口调用模型。更多操作,可见本章服务管理使用说明内容。

    Step6:体验测试

    在左侧功能列的体验中心,选择自训练模型和参数配置,进行在线测试。详细可见体验测试使用说明,参数配置列选择本服务。

    选择自己部署的模型。


    如果需进行“应用创建”,可移步至应用接入

    相关文章

      网友评论

          本文标题:百度千帆大模型——基础篇

          本文链接:https://www.haomeiwen.com/subject/wpgjwdtx.html