美文网首页
MuTual: A Dataset for Multi-Turn

MuTual: A Dataset for Multi-Turn

作者: 舟舟洋 | 来源:发表于2020-07-15 11:42 被阅读0次

    多轮对话数据集分为两类:

    1. 无原因推理型数据集
    • Ubuntu Dialogue Corpus:
    1. 原因推理数据集

    MuTual

    1. 数据需要几类推理
    • 态度推理 Attitude Reasoning
    • 数字推理 Algebraic Reasoning
    • 意图推理 Intention Prediction(接下来想做什么)
    • 环境推理 Situational Reasoning(对话者之间关系,位置)
    • 多轮对话数据集分为两类:
    1. 无原因推理型数据集
    • Ubuntu Dialogue Corpus:
    1. 原因推理数据集

    MuTual

    1. 数据需要几类推理(每类平均13.5%)
    • 态度推理 Attitude Reasoning
    • 数字推理 Algebraic Reasoning
    • 意图推理 Intention Prediction(接下来想做什么)
    • 环境推理 Situational Reasoning(对话者之间关系,位置)
    • 多事实推断 Multi-fact Reasoning (基于多个事实推断出结果)
    • 其他 Others,commonsense knowledge(包括9%)
    1. MuTual-plus
    • 首先生成一个安全选项,例如Could you repeat that?, I’m really sorry,I didn’t catch that.等
    • 然后用安全选项随机替代一个选项,可替换正确或者错误选项,如果是错误选项,最优选项仍然是正确选项;
      3.数据集比例
    • train: dev: test = 8:1:1
    1. MuTual与MuTual-plus
    • 通过MuTual训练数据,MuTual-plus测试,即没有安全选项训练,在有安全选项的数据上测试,发现效果有所降低
    1. 每个原因导致的效果对比


      不同原因导致指标差异
    • 说明数学推理能力和对话者关系的推理能力较弱
    • 对话长度不影响结果,从2轮到6轮指标降低较少
    • 扰乱词顺序,说明对语序不敏感

    相关文章

      网友评论

          本文标题:MuTual: A Dataset for Multi-Turn

          本文链接:https://www.haomeiwen.com/subject/fxdqcktx.html