美文网首页码农庄园
浅谈AI大语言模型的企业落地(八)- 问答系统评估指标

浅谈AI大语言模型的企业落地(八)- 问答系统评估指标

作者: 小马过河R | 来源:发表于2023-12-10 20:44 被阅读0次

上一篇我们具体介绍了垂直领域智能问答的具体实现,那么小马的AI应用落地在“大语言模型落地--智能问答系统”下已经暂告一段落了。实现完了自然就到了系统评估指标环节了,由于需求场景差异,指标方案不一定完全适用,本文抛砖引玉,仅供参考。

本文将分别从大模型评估指标、问答系统评估指标、自定义评估指标参考等几个方面来简单阐述问答系统的评估指标。

一、 大模型评估指标

我们说了这么久的大模型,好像从来没有提起用大模型自己来回答我们对大模型的疑问。哎,今天你就看到了。其实很多问题都可以通过直接提问大模型来求解。话不多说,那就先来问问它标题这个问题的答案吧。

小马试了些许模型,回答大同小异。以百川2的为例。

问:大模型的评估指标?

答:

大模型的评估指标通常用于衡量模型的性能和准确性。以下是一些常用的评估指标:

1. 准确率(Accuracy):准确率是分类问题中最常用的评估指标,它表示模型预测正确的样本数占总样本数的比例。

2. 精确度(Precision):精确度表示模型预测为正例的样本中实际为正例的比例。

3. 召回率(Recall):召回率表示实际为正例的样本中被模型预测为正例的比例。

4. F1分数(F1 Score):F1分数是精确度和召回率的调和平均值,用于综合评估模型的性能。

5. AUC-ROC曲线(Area Under the Receiver Operating Characteristic Curve):AUC-ROC曲线是一种用于评估分类器性能的图形表示方法,它表示在不同阈值下真正例率(True Positive Rate)和假正例率(False Positive Rate)之间的关系。AUC值越接近1,表示模型性能越好。

6. 均方误差(Mean Squared Error, MSE):MSE是回归问题中常用的评估指标,表示模型预测值与实际值之间的平方差的均值。

7. 平均绝对误差(Mean Absolute Error, MAE):MAE也是回归问题中常用的评估指标,表示模型预测值与实际值之间的绝对差的均值。

8. R-squared(决定系数):R-squared是衡量模型拟合优度的指标,表示模型解释的数据变异占总变异的比例。

这些评估指标可以帮助开发者了解模型的性能,从而进行优化和改进。需要注意的是,不同的任务和场景可能需要关注不同的评估指标。

我们再来看百川2开源仓库官方提供的资料。大模型评估指标框架(内含的评估指标不同侧重点不同):

如果是模型情感分析或者分类我们可以使用如下矩阵验证精确度、召回率和支持率等。

相关文章

  • 模型评估——评估指标的局限性

    在模型评估过程中,往往对于不同的模型,需要不同的指标进行评估,在众多评估指标中,大部分指标只能反映模型的部分性能,...

  • 分类指标

    评估结果用于反应模型的好坏,必须设计合适的评估指标来测量该模型的好坏。模型的好坏是相对的,使用不同的评估指标对模型...

  • Interleaving for Ranking Evaluat

    评估信息检索系统的排序模型,常见的离线评估指标有 precision recall F1-score NGCG M...

  • 模型性能评估

    目录 1、模型评估指标 2、总结 1、模型评估指标 2、总结:本文以思维导图的方式罗列了二分类中模型评估中常用的指...

  • 关于模型评估指标,可比性,LOSS,AUC,上下限

    模型评估可以从多维度多指标进行评估。 这里只谈论指标。我们常用的指标,logloss,mse,auc(GAUC)等...

  • 模型评估指标

  • 模型评估指标

    评估指标用于反映模型效果。在预测问题中,要评估模型的效果,就需要将模型预测结果f(X)和真实标注Y进行比较,评估指...

  • 模型评估指标

    混淆矩阵、精确率、召回率,ROC、AUC 对于二分类问题来说,所有的问题被分为0和1两类,混淆矩阵是2*2的矩阵:...

  • 模型评估指标

    混淆矩阵(Confusion Matrix) 蓝色点被标记为Positive红色点被标记为Negative线上方的...

  • 一文深度解读模型评估方法

    本文将总结机器学习最常见的模型评估指标。训练学习好的模型,通过客观地评估模型性能,才能更好实际运用决策。模型评估主...

网友评论

    本文标题:浅谈AI大语言模型的企业落地(八)- 问答系统评估指标

    本文链接:https://www.haomeiwen.com/subject/ouepgdtx.html