美文网首页
🐟如何评估开放域对话系统🤖🗨的好坏?

🐟如何评估开放域对话系统🤖🗨的好坏?

作者: SimZhou | 来源:发表于2020-03-01 22:35 被阅读0次

本文总结自 Amazon 论文: On Evaluating and Comparing Open Domain Dialog Systems
—— Anu Venkatesh, Amazon

1. 开放域对话系统简介

开放域对话系统指的是没有明显目标,而旨在让对话方开心愉悦的对话系统,例如亚马逊Alexa,微软Cortana,微软小冰,苹果Siri,小爱同学,天猫精灵等都算是开放域对话系统,而像国内某些快递公司或者银行上线的智能客服系统,只能识别特定回答,不具备闲聊功能的,则不算是开放域对话系统。为了提高开放域对话系统的水平,2017-2018年Amazon曾经举办了2次Alex Prize比赛悬赏250万美金给大学生参赛队伍。通过在比赛中找真人对参赛队伍创造的对话系统进行评分,这赛事为Amazon积累了不少对话系统的评价数据。并且Amazon研究人员还尝试用这些数据做了一下基于机器学习的对话质量评价系统。

这篇文章会先回顾一下论文里提到的传统的评价指标,然后介绍Amazon这篇论文里的所谓“至今为止最综合性的”评价指标

2. 评估开放域对话系统的难点

  • 由于人工评测的高成本和低效率,所以学界基本上都在使用机器翻译评价指标BLEU文本总结评价指标ROUGE(下文会详细讲)
  • 有学者(Liu et al., 2016)研究发现这些指标同人工评价相关性很低(也就是说不符合人的标准)
  • 又有学者发现了另外的问题,对话系统领域的数据集质量一般,他们都用类似于Reddit, Twitter上爬取的一些对话数据去训练,而这些数据不论是在质量,对话的轮数,以及上下文话题统一等方面都存在一些问题。

有人说,图灵测试不就是干这个的吗?把一个人和一台机器放在黑盒子里,外面的人和他对话,看外面的人是否可以判断出该人是真人还是机器。

图灵测试

然鹅,图灵测试用于对话系统评测是有问题的:

  • 没有可比性: 对话系统和人类所拥有的知识不同,处理方式也不同,所以不能要求机器产生和人类似的回答。对话系统的回答即便不像人,也不一定就不是一个好的回答。
  • 图灵测试倾向于产生花言巧语但没有实质内容的回答: 好的对话系统需要有实质的有价值的信息。
  • 目的不同: 图灵测试是为了让人类无法分辨对话方是真人还是机器,而对话系统的标准应该是对话体验以及是否能达到对话方的目的(例如回答问题,订餐等)。

因此,Amazon在举办Alex Price杯对话系统比赛时,规定了一个评测框架,这个框架包含参与度(engagement), 覆盖度(domain coverage), 连贯性(coherence), 话题多样性(topical diversity), 以及话题深度(conversational depth)这5大类,都是用的人工评测的方式。这个评测框架就是这篇文章的主要贡献

最后,砸钱弄了比赛,提高了Amazon的Alexa人工智障的智障度,成功赚到了钱。那那些数据怎么最大化利用呢?这不正好是有人工标注么,拿60000条对话和那些人工标注跑个模型,试试搞个自动打分器,本来就是人打的分数,那跟人的打分相关度肯定高了,还能顺便发篇paper,真香!作者在文章里就试了俩模型,Hierarchical LSTM和GBDT,自己也说就是小试一下而已 (This experiment was done to obtain the potential of automating the ratings.),诚意着实是一般了。

3. 传统的自动评价指标

3.1 目标导向对话系统(goal-oriented dialogue system)的评价指标

3.2 机器翻译(Machine Translation)的评价指标

3.3 文本摘要(Text Summarization)的评价指标

4. 论文中为Alex Price比赛所定义的评判指标

相关文章

  • 🐟如何评估开放域对话系统🤖🗨的好坏?

    本文总结自 Amazon 论文: On Evaluating and Comparing Open Domain ...

  • 对话系统调研笔记

    对话系统分类 任务型开放域聊天知识问答推荐系统目的完成任务/动作闲聊知识获取信息推荐领域特定域(垂类)开放域开放域...

  • 聊天机器人-对话系统技术原理

    对话系统概述 开放域的对话系统主要支持闲聊的对话方式,用户通常不具有明确的目的性。在衡量对话的质量上以用户主观体验...

  • 智能聊天机器人的技术及专业术语解释

    系统API: 功能API:聊天API,问答API,语义理解API,端对端对话API 应用层:开放域聊天,检索式问答...

  • 人机对话(4)-客服机器人

    应用背景 目前在对话机器人领域,开放域的闲聊型对话技术不成熟,基本算是”人工智障“; 而在封闭域,单纯的任务型对话...

  • 如何评估模型好坏

    介绍 “所有模型都是坏的,但有些模型是有用的”。我们建立模型之后,接下来就要去评估模型,确定这个模型是否‘有...

  • 关于人工智能的思考

    解决需求通过封闭域对话完成,而开放域对话来不断制造惊喜。 聊天是一个容易被激发,却也容易迅速消退的场景,唯有情感依...

  • 对话系统的概述

    对话系统是一种人机对话交互的典型应用,按照用途可以分为两类:闲聊式的对话系统和面向任务的对话系统。 开放式的对话系...

  • 如何评估云主机的好坏

    随着云计算、大数据的快速发展,云主机也普及到各行各业中,在搜索引擎中输入云主机,运营商打的广告各个响亮面对众多服务...

  • 分类指标

    评估结果用于反应模型的好坏,必须设计合适的评估指标来测量该模型的好坏。模型的好坏是相对的,使用不同的评估指标对模型...

网友评论

      本文标题:🐟如何评估开放域对话系统🤖🗨的好坏?

      本文链接:https://www.haomeiwen.com/subject/iyhdqhtx.html