美文网首页
BIG-bench,BIG-bench-Hard

BIG-bench,BIG-bench-Hard

作者: Valar_Morghulis | 来源:发表于2023-04-10 17:15 被阅读0次

    BIG-bench

    Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

    Jun 2022

    [Google]

    https://arxiv.org/abs/2206.04615

    https://github.com/google/BIG-bench

    随着规模的不断扩大,语言模型展示了数量上的改进和新的质量能力。尽管这些新能力具有潜在的变革性影响,但它们的特点还很差。为了为未来的研究提供信息,为破坏性的新模型能力做好准备,并改善对社会有害的影响,我们必须了解语言模型目前和不久的将来的能力和局限性。为了应对这一挑战,我们引入了超越模仿游戏基准(BIG-bench)。BIG-bench目前包括204项任务,由132个机构的442位作者贡献。任务主题多种多样,涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面的问题。BIG bench专注于被认为超出当前语言模型能力的任务。我们评估了OpenAI的GPT模型、谷歌内部密集Transformer架构和BIG平台上Switch风格稀疏Transformer的行为,模型大小涵盖数百万到数千亿个参数。此外,一个由人类专家评分员组成的团队执行了所有任务,以提供一个强有力的基线。研究结果包括:模型性能和校准都随着规模的增加而提高,但在绝对值上较差(与评分者性能相比);模型类之间的性能非常相似,尽管有稀疏性的好处;逐步改进并可预测的任务通常涉及大量的知识或记忆成分,而在关键尺度上表现出“突破性”行为的任务往往涉及多个步骤或成分,或脆弱的指标;在上下文不明确的环境中,社会偏见通常会随着规模的增加而增加,但这可以通过提示来改善。


    BIG-bench-Hard

    Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them

    Oct 2022

    [Google]

    https://arxiv.org/abs/2210.09261

    https://github.com/suzgunmirac/BIG-Bench-Hard

    BIG Bench(Srivastava et al.,2022)是一个多样化的评估套件,专注于被认为超出当前语言模型能力的任务。语言模型在这一基准测试上已经取得了良好的进展,BIG Bench论文中的最佳模型通过少量提示,在65%的BIG Benk任务中优于平均报告的人工评分结果。但是,语言模型在哪些任务上达不到人类评分者的平均表现?这些任务实际上是当前语言模型无法解决的吗?在这项工作中,我们专注于一套23项具有挑战性的“BIG-bench”任务,我们称之为“BIG-bench-Hard”(BBH)。在这些任务中,先前的语言模型评估并没有超过平均的人类评分者。我们发现,将思维链(CoT)提示应用于BBH任务使PaLM在23项任务中的10项任务上超过了平均人工评分器性能,Codex(code-davinci-002)在23项工作中的17项任务上超越了平均人工评级器性能。由于BBH中的许多任务需要多步骤推理,因此很少有没有CoT的样本提示,就像在BIG Bench评估中所做的那样(Srivastava et al.,2022),大大低估了语言模型的最佳性能和能力,而通过CoT提示可以更好地捕捉到这一点。作为进一步的分析,我们探索了CoT和BBH上模型规模之间的相互作用,发现CoT能够在几个具有平坦比例曲线的BBH任务上实现紧急任务性能。

    相关文章

      网友评论

          本文标题:BIG-bench,BIG-bench-Hard

          本文链接:https://www.haomeiwen.com/subject/golwddtx.html