1、人机对话系统的交互形式和应用场景

1、聊天。典型代表是小冰，它包括问候和寒暄，其特点是没有明确目的，而且不一定回答用户的问题。聊天在现有的人机对话系统中主要是起到情感陪伴的作用。

2、问答。它要对用户的问答给出精准的答案。这些问题可以是事实性的问题，如“姚明有多高”,也可能是其他定义类，描述类或者比较类的问题。问答系统可以根据问答的数据来源分为基于常见问题-答案列表的FAQ问答，基于问答社区数据的CQA问答，基于知识库的KBQA问答。

3、操控。只是解析出它的语义，来供第三方执行，最典型的操控是打开空调、打开台灯，或者播放某一首歌。

4、任务式对话。它是一个目的性很强的对话，目标是收集信息，以完成某个填表单式的任务，最常见的像订外卖、订酒店、订机票，这种方式通过对话来做。

5、主动对话。让机器主动发起话题，不同的是，前面的交互都是让人来主动发起这个交互。

2、人机对话技术架构

人机对话系统技术架构

人机对话系统从学术界来讲，它的研究历史非常悠久，可能 AI 提出以后，在七八十年代就开始研究。它的技术分为五大部分：

1、语音识别：主要解决复杂真实场景噪声、用户口音多样的情况下，把人说的话转成文字，即做到“听得清”。

2、语义理解：主要是把用户说的话转成机器能理解执行的指令或查询，即做到“听得懂”。

3、对话管理：维护对话状态和目标，决定系统应该怎么说、怎么问下一句话，也就是生成一个应答的意图。

4、自然语言生成：就是根据系统应答的意图，用自然语言把这个应答意图表达出来。

5、语音合成：用机器合成的语音把这句话播报出来。

这样形成一个完整人机对话的闭环。

3、语音识别场景演进

语音识别场景演进

鸡尾酒会问题：

鸡尾酒会问题是在计算机语音识别领域的一个问题。

当前语音识别技术已经可以较高精度识别一个人所讲的话，但是当说话的人数为两人或者多人时，语音识别率就会极大的降低，这一难题被称为鸡尾酒会问题。

该问题给定混合信号，分离出鸡尾酒会中同时说话的每个人的独立信号。

4、人机对话系统中的机器角色演进

人机对话系统中的机器角色演进

在人机对话里面机器的角色有个演进的过程：最早人机对话很简单，可以看成是个遥控器的替代品，用户通过固定句式或者单句指令来控制这个系统。

Siri、Amazon Echo 是一种助手的形态，也就是说，你可以通过自然语言交互，且对话是多轮的，甚至可以让机器有些情感。

但是下一个阶段是它会变成专家的角色，特别是面向行业或者特定领域时，当我们跟音箱对话时，希望这个音箱同时也是一个音乐专家，它可以跟你聊音乐的问题，可以跟你聊古典音乐，甚至教你一些音乐知识。我们跟儿童教育机器人对话时，希望这个机器人是一个儿童教育专家，我们跟空调对话时希望后面是个空调专家。这时它的特点是需要有这个领域的知识，而且能够帮你做推荐、做决策。

刘升平，AI 科技大本营在线公开课，基于知识图谱的人机对话系统

公开课笔记——https://www.jianshu.com/p/c2bff0e091fa

回放地址——https://edu.csdn.net/huiyiCourse/detail/847