美文网首页
模型评估

模型评估

作者: 梅西爱骑车 | 来源:发表于2024-09-24 17:44 被阅读0次

模型精调后需要评估其性能,模型SFT精调参考上一篇文章:https://www.jianshu.com/p/cb1e17914c0e

通用数据集和推理结果集的区别

通用数据集支持导入Prompt、Prompt+Response、多轮Prompt+Response等数据,一般用于SFT场景。推理结果集只支持导入Prompt数据,然后选择大模型离线推理出Response,一般用于模型评估所需的数据集前置生成(类似于批量标注)。
通用数据集一般用来做模型训练,而推理结果集创建就是选择一个训练好的模型给他一个通用的数据集,然后来做推理,推理的结果就会放到推理结果集中,这个一般用来做模型评估的准备工作,也可以拿来查看模型训练的效果(当数据量比较少的时候)。模型评估是来获取多个维度的指标的,当数据条数多的情况下,可以采用自动评估的方式来获取模型的训练综合效果。

什么是评估数据集

在人工智能模型开发过程中,通常是将数据集划分为训练集、验证集和测试集三个部分。其中,训练集用来训练模型,验证集则用于调整模型的超参数和选择合适的模型,而测试集则是在模型训练完成后,用于最终评估模型的性能,这就是评估数据集(即测试集)。 评估数据集通常是在与训练数据集相似的情况下收集的,因此可以用来代表真实世界的样本数据。通过对评估数据集的评估,可以了解模型在不同场景下的表现,从而更好地优化模型。同时,评估数据集还可以用来验证模型的泛化能力,即模型在未见过的数据上的表现如何。

有2种方式进行模型评估,第一种是通过创建评估任务(下文以自动评估为例,没有采用人工评估),第二种通过数据集去评估。

一、自动评估

自动评估对⽣成式⼤模型的输出效果进⾏全⽅位评价,提供⾯向事实类或开放性问答的多种打分模式;当前⽀持⽂本类⽣成模型,暂不⽀持图像或跨模态⽣成模型。
通过如下链接创建自动评估任务:https://console.bce.baidu.com/qianfan/modelcenter/model/eval/list


填写信息如下:

评估数据来源,选新建推理结果(数据)集,自动评估完成会创建这个推理结果(数据)集,后续再评估可以直接使用。
由于当前自己没有准备评估数据集,所以“输入数据集”选用平台提供的劳动合同数据集(我的模型就是劳动合同)。

点击"确定”按钮去评估。

等待评估任务完成。

评估结果:

同时也生成了新的“推理数据集”,应该是本次模型评估就是先生成再使用“推理数据集”。后面可以用这个新的数据集进行模型评估。



查看数据集详情,注意:3个字段名称和数据格式。

在推理结果集中,"prompt"指的是输入的问题或提示;而“response(参考回答)”一项并不直接存在于推理结果集的数据格式中,它通常用于描述我们期望模型给出的理想回应,可作为评估模型表现的参考;“completion(模型回答)”则是模型基于输入的prompt所生成的实际回复。简单来说,“prompt”是我们给模型的任务指令,“completion”是模型根据这个指令做出的回答,而我们可能会用一个理想的“response”来对比评价模型的回答质量。

点击去评估按钮,会自动把推理结果集信息带入。


二、自建推理数据集

  1. 准备评估数据,这里为Excel格式,注意表头信息。


  2. 一条示例数据:
    prompt1内容如下:
你是一个从合同中提取关键信息的智能助手。你的任务是分析【合同文本】并提取【关键信息】。
你需要向我汇报的内容是:
1.汇报合同是否缺失劳动合同必备条款;
2.汇报【关键信息】有没有在合同中缺失;
3.汇报你提取的关键信息,以{"要求提取的关键信息":"你提取的关键信息内容"}的json格式汇报。
4.按照上述顺序连续汇报一段字符串,并且不用输出顺序号和任何多余信息。
下面是你要分析的【合同文本】和要提取的【关键信息】:
【合同文本】
    甲方(用人单位)
名称:合联电子科技有限公司
统一社会信用代码:91310105MA1FW7DY4H
地址:上海市徐汇区漕溪北路333号
联系人:张明
联系方式:13800138000
乙方(劳动者)
姓名:李华
身份证号码:320582199002143012
住所:江苏省常熟市虞山镇琴湖路8号
联系人:李华
联系方式:13500000001
本合同各方经平等自愿协商,根据《中华人民共和国民法典》《中华人民共和国劳动合同法》及相关法规,签订本合同以共同遵守。
# 劳动合同期限 #
本合同为固定期限的劳动合同。
劳动合同期限:自2023年 4月 1日起(含当日)至 2026年 3月 31日(含当日)止。
试用期:3个月,自劳动合同期限起始日起算。
甲方有权对乙方进行试用期考核;试用期考核未通过的,视为不符合录用条件。
# 工作岗位和工作地点 #
工作岗位:软件开发工程师。具体工作内容以甲方要求为准。
工作地点: 上海市徐汇区漕溪北路333号合联电子大厦。
甲方在上述工作地点的其他门店、分支机构有需要时,乙方同意服从甲方安排到其他门店或分支机构工作。
乙方同意,甲方可根据生产经营需要对乙方工作岗位、工作地点进行调整,如果需要调整工资标准的,将提前与乙方协商。
# 劳动报酬 #
月工资标准:人民币(大写)壹万伍仟元(¥15000元)。
试用期工资标准:按照月工资标准的80%发放,即人民币壹万贰仟元(¥12000元)。
甲方于每月10日左右发放上月工资。
年终奖金根据公司业绩及乙方工作表现由甲方决定发放,具体数额及时间由甲方另行通知。
# 工作时间、休息休假 #
乙方所在岗位执行标准工时制;每周工作五天,每天工作八小时,具体上下班时间根据甲方公司规定执行。
# 劳动纪律 #
乙方应遵守甲方的各项规章制度,服从管理,认真完成工作任务。如有违反,甲方有权按照公司规定进行处理。
# 社会保险和福利待遇 #
甲方依法为乙方缴纳社会保险,包括养老保险、医疗保险、失业保险、工伤保险和生育保险。
乙方享受国家法定节假日及甲方规定的带薪休假。
# 其他约定 #
乙方在职期间及离职后,应保守甲方的商业秘密,不得泄露给任何第三方。
乙方同意在离职后的一定期限内,不得在与甲方业务相关的领域内从事竞争性或相似业务。
# 合同联系方式 #
甲、乙双方应确保所提供的联系方式准确无误,如有变更应及时通知对方。
# 附则 #
本合同一式两份,甲、乙双方各执一份,自双方签字或盖章之日起生效。
本合同未尽事宜,可另行签订补充协议,补充协议与本合同具有同等法律效力。

甲方(盖章):合联电子科技有限公司
代表(签字):

乙方(签字):李华

签订日期:2023年4月1日
【关键信息】
工作地点, 如果没有回答无

response1内容如下:

分析:该合同包含了劳动合同必备条款中的各项内容,如用人单位和劳动者的基本信息、劳动合同期限、工作内容和工作地点、工作时间和休息休假、劳动报酬、社会保险等。同时,还约定了劳动纪律、保密义务和竞业限制等其他事项,符合法律法规的要求。分析:合同中明确约定了工作地点为“上海市徐汇区漕溪北路333号合联电子大厦”,因此具有具体的工作地点信息。{"工作地点": "上海市徐汇区漕溪北路333号合联电子大厦"}

completion内容如下:

缺失劳动合同必备条款中的(八)劳动保护、劳动条件和职业危害防护;有具体的工作地点{"工作地点": "上海市徐汇区漕溪北路333号合联电子大厦。"}
  1. 新建推理结果集
    3.1 导入本地数据方式
    由于数据集文件准备存储在BOS存储桶中,所以先开通BOS服务:https://console.bce.baidu.com/bos
    新建存储桶:sftmodel
    新建目录:dataset

    新建推理结果集:

    填写信息如下:

    很快资源就绪后可以进行模型评估工作。

    在存储桶中会看到生成的数据文件。

    点击“推理数据集”后面的评估按钮,自动带入评估的相关参数。

    3.2 从其他BOS中导入结果集

首先上传数据文件到桶的根目录。



可以从桶导入已有的数据集来创建推理数据(结果)集。



导入成功后的数据详情:

基于本推理结果(数据)集进行评估。评估结果如下:

3.3 从通用数据集创建推理结果集
新建一个通用数据集。


填写信息如下(注意数据格式为问答对,prompt + response,不像评估模型海油一个completion):



导入成功后的通用数据集:



数据集点击“发布”按钮发布后才能使用。

创建推理结果集使用通用数据集。



推理模型将原通用数据集的问答对进行推理得到推理数据集。状态为推理中。

模型推理完成后补充了completion字段的信息。



下面可以用该评估数据集进行SFT后的模型评估。


相关文章

  • 模型评估——模型评估方法

    Holdout检验 :是最简单直接的检验方法,它将原始样本数据集随机划分成训练集和测试集。 缺点就是不能保证训练集...

  • 机器学习面试题集-图解准确率,精确率,召回率

    今天进入第二章:模型评估 1. 什么是模型评估 模型训练后要对其进行评估,看模型表现如何,哪里可以改进 分类、排序...

  • 一文深度解读模型评估方法

    本文将总结机器学习最常见的模型评估指标。训练学习好的模型,通过客观地评估模型性能,才能更好实际运用决策。模型评估主...

  • 分类指标

    评估结果用于反应模型的好坏,必须设计合适的评估指标来测量该模型的好坏。模型的好坏是相对的,使用不同的评估指标对模型...

  • 西瓜书-模型评估与选择

    模型评估与选择 西瓜书第一章,模型评估与选择.

  • Evaluation of Maching Learning

    模型的评估分线上评估与线下评估,如何来对模型进行线上评估与线下评估呢?它们之间又有什么关系 首先怎么区别它们: 首...

  • 模型评估指标

    评估指标用于反映模型效果。在预测问题中,要评估模型的效果,就需要将模型预测结果f(X)和真实标注Y进行比较,评估指...

  • 机器学习(深度学习)常见面试题--基础知识篇

    1. 模型评估 在机器学习领域,模型评估至关重要,只有选择和问题相匹配的评估方法,才能更快更好的完成训练。将模型评...

  • 【百面机器学习】优化算法

    机器学习算法 = 模型表征 + 模型评估 + 优化算法。不同的优化算法对应的模型表征和评估指标分别为线性分类模型和...

  • 模型评估

    https://mp.weixin.qq.com/s/mepBsPIZaZhhVlumEJUErQ 各个模型评估方...

网友评论

      本文标题:模型评估

      本文链接:https://www.haomeiwen.com/subject/tcjqrjtx.html