美文网首页
2023-03-26

2023-03-26

作者: 斧正堂 | 来源:发表于2023-03-25 22:53 被阅读0次
三、数学
我们在两个通常用作基准的数学数据集上比较GPT-4、ChatGPT和Minerva(解决数学问题的最新LLM)的性能:GSM8K 和MATH 。GSM8K是一个小学数学数据集,包含8000个关于算术、分数、几何和单词问题等主题的问题和答案。MATH是一个高中数学数据集,包含12,500个关于代数、微积分、三角学和概率等主题的问题和答案。我们还在MMMLU-STEM数据集上测试模型,该数据集包含大约2000个多个选择(4个选择)问题,涵盖高中和大学STEM主题。这些数据集突出了GPT-4使用正确方法解决高中数学问题的能力。
结果:
GPT4 在每个数据集上的测试都超过了 Minerva,并且在两个测试集的准率都超过 80% 。

相关文章

  • 2023-03-26 句子摘抄分享

    周国平老师说:“如果痛苦,只因为你在乎,越在乎就越痛苦。只要不在乎,就一根毫毛也伤不了你。” 很多时候,生气往往是...

网友评论

      本文标题:2023-03-26

      本文链接:https://www.haomeiwen.com/subject/yntordtx.html