人机交互如何改变人类生活 | 竹间智能公开课笔记

作者: AI科技大本营 | 来源:发表于2018-07-11 10:50 被阅读13次

人机交互如何改变人类生活 | 竹间智能公开课笔记
【课程笔记】竹间智能CTO翁嘉颀：人机交互未来如何改变人类生活【
2017-05-26
2018开年第一场AI与移动技术大会早知道！
seki & 竹间智能
情感建模
每天听本书—AL未来
逆天解析AI黑暗科技：人工智能或将取代家长，2岁孩子掌握两国语言
2019-02-11
投知识：——手势识别已走进我们的智能生活

作者 | 翁嘉颀

编译 | 姗姗

出品 | 人工智能头条（公众号ID：AI_Thinker）

【导读】在人机交互过程中，人通过和计算机系统进行信息交换，信息可以是语音、文本、图像等一种模态或多种模态。对人来说，采用自然语言与机器进行智能对话交互是最自然的交互方式之一，但这条路充满了挑战，如何机器人更好的理解人的语言，从而更明确人的意图？如何给出用户更精准和不反感的回复？都是在人机交互对话过程中最为关注的问题。对话系统作为NLP的一个重要研究领域受到大家越来越多的关注，被应用于多个领域，有着很大的价值。

本期大本营公开课，我们邀请到了竹间智能的 CTO 翁嘉颀老师，他将通过对技术方法通俗易懂的讲解和Demo 演示相结合的方式为大家讲解本次课题，本次课题主要包含一些几个内容：

1.上下文理解技术——补全与指代消解

2.上下文理解技术——对话主题式补全

3.NLU的模块架构及如何利用NLU的基础信息

4.Live Demo 演示

5.人机交互的案例分享与研究发展趋势

6. Q & A

观看回放：https://edu.csdn.net/huiyiCourse/detail/804

以下是公开课文字版整理内容

▌前言

我从1982年开始坐在电脑前面，一直到现在。上一次做人工智能是27年前，大概1991年的时候，那个时候做人工智能的人非常可怜，因为做什么东西都注定做不出来，随便一个机器学习的训练、神经网络训练需要20天，调个参数再重新训练又是20天，非常非常慢。电脑棋类我除了围棋没做以外，其他都做了，本来这辈子看不到围棋下赢人，结果两年前看到了。后来做语音识别，语音识别那个年代也都是玩具，所以那个年代做人工智能的人最后四分五裂，因为根本活不下去，后来就跑去做搜索引擎、跑去做金融、跑去做其他的行业。

这次人工智能卷土重来，真的开始进入人类生活，在周边地方帮上我们的忙。今天我来分享这些人机交互的技术到底有哪些变化。

先讲“一个手环的故事”，这是一个真实的故事，我们在两年前的4月份曾经想要做这个，假设有一个用户戴着手环，“快到周末了，跟女朋友约会，给个建议吧”。背后机器人记得我的一些事情，知道我过去的约会习惯是看电影，还是去爬山，还是在家打游戏、看视频。如果要外出的话，周末的天气到底怎样，如果下大雨的话那可能不适合。

而且它知道我喜欢看什么电影、不喜欢看什么电影、我的女朋友喜欢看什么、不喜欢看什么，它甚至知道我跟哪一个女朋友出去，喜欢吃什么，不喜欢吃什么，餐厅的价位是吃2000块一顿，还是200块一顿，还是30块一顿的餐馆，然后跟女朋友认识多久了，刚认识的可能去高档一点的地方，认识6年了吃顿便饭就和了，还有约会习惯。

有了这些东西之后，机器人给我一个回应，说有《失落的世界2》在某某电影院，这是我们习惯去的地方，看完电影，附近某家餐馆的价位和口味是符合我们的需要。我跟它说“OK，没问题”，机器人就帮我执行这个命令，帮我买电影票、帮我订餐馆、周末时帮我打车，甚至女朋友刚认识，买一束花放在餐馆的桌上。

我们当时想象是做这个。这个牵扯到哪些技术？第一，有记忆力，你跟我讲过什么东西，我能记得。还包括人机交互，我今天跟它讲“周末是女朋友生日，订个好一点的吧。”它能帮我换个餐馆，能理解我的意思。

如果手环能够做到这个样子，你会觉得这个手环应该是够聪明的，这个机器人是够聪明的，能够当成你的助手陪伴你。最后，我们并没有做出来，我们做到了一部分，但是有一部分并没有做到。

我们公司的老板叫Kenny，他之前是微软亚洲互联网工程院副院长，负责小冰及cortana的，老板是做搜索引擎出身的，我以前也是做搜索引擎的，做了11年。左下角的曹川在微软做搜索引擎。右上角在微软做搜索引擎。右下角在谷歌做搜索引擎。目前的人工智能很多是搜索引擎跑回来的，因为搜索引擎也是做语义理解、文本分析，和人工智能的文本分析有一定的相关度。

▌人机交互的发展

一开始都是一些关键词跟模板的方式，我最常举的例子，我桌上有一个音箱，非常有名的一家公司做的，我今天跟这个音箱说“我不喜欢吃牛肉面”，音箱会抓到关键词“牛肉面”，它就跟我说“好的，为您推荐附近的餐馆”，推荐给我的第一个搞不好就是牛肉面。我如果跟它说“我刚刚吃饭吃很饱”，关键词是“吃饭”，然后它又说“好的，为您推荐附近的餐馆”，所以用关键词的方式并不是不能做，它对语义意图理解的准确率可能在七成、七成五左右，也许到八成，但有些东西它是解不了的，因为它并不是真的理解你这句话是什么意思。所以要做得好的话，必须用自然语言理解的方式，用深度学习、强化学习，模板也用得上，把这些技术混搭在一起，比较有办法理解你到底要做什么事情。

这个Chatbot的演变历程我们不细讲，但我今天要表达，在人机交互里面或者语义理解上面，我们分成三个层次。

最底层的叫自然语言理解，举例来说，我现在想说“我肚子饿”跟“我想吃东西”这两句话的句法、句型不太一样，所以分析的结果也不太一样，这是最底层的。

第二层叫“意图的理解”，这两句话虽然不一样，但它们的意图是一致的，“我肚子饿”跟“我想吃东西”可能代表我想知道附近有什么餐馆，或者帮我点个外卖，这是第二层。目前大家做的是第一层跟第二层。

其实还有第三层，第三层就是这一句话背后真正的意思是什么，比如我们在八点上这个公开课，我突然当着大家的面说“我肚子饿”跟“我想吃东西”，你们心里会有什么感受？你们心理是不是会觉得我是不是不耐烦、是不是不想讲了。你的感受肯定是负面的。今天如果我对着一个女生说“我肚子饿”，女生心里怎么想？会想我是不是要约她吃饭，是不是对她有不良企图。目前大家离第三层非常遥远，要走到那一步才是我们心目中真正要的AI，要走到那一步不可避免有情绪、情感的识别、情境的识别、场景的识别、上下文的识别。

我们公司的名字叫“EMOTIBOT”，情感机器人，我们一开始创立时就试着把情绪情感的识别做好。我们情绪情感识别，光文字做了22种情绪，这非常变态，大部分公司做的是“正、负、中”三种，但是你看负面的情绪，有反感、愤怒、难过、悲伤、害怕、不喜欢、不高兴，这些情绪都是负面的，但是它不太一样，我害怕、我悲伤、我愤怒，机器人的反馈方式应该是不一样的。

人脸表情我们做了9种，语言情绪我们做了4种。而且我们做最多的是把这些情绪混合在一起做了多模态的情感。举个例子，像高考光结束，我今天看了一段文字：“我高考考了500分”，你看了这段文字不知道该恭喜我还是安慰我。这时要看讲话的语气，如果我的语气是说“哦，我高考考了500分。”你一听就知道我是悲伤的，所以会安慰我。所以通常语音情感比文字情感来得更直接。

然后人脸表情加进来，三个加在一起，又更麻烦了。我们来看一段视频，我用桌面共享。（视频播放）“鬼知道我经历了什么”，文字上是匹配的——我已经要死了、生不如死，我的文字是愤怒的，但我的语音情绪跟脸表情是开心的，所以我的总情绪仍然是开心的。这是把人脸表情、语音情绪、文字情绪混搭在一起做出来的多模态情感。

▌上下文理解技术

接下来进入比较技术面的部分，讲话聊天时，任务型的机器人一定牵扯到上下文的理解技术。

什么叫上下文理解技术？

这是某个电商网站，我前面一句话跟它说“我要买T恤”，它给我3件T恤，我跟它说“要黑色的”，意思是我要黑色的那件T恤，但它完全不理解我的意思，因为没有上下文。所以它居然在跟我解释黑色的基本定义是什么，是因为不返色，所以你看不到光，所以它是黑色的。这完全不是我要的东西，所以没有上下文时，它的反应常常啼笑皆非。

我们来看看上下文怎么做，上下文有几种做法。第一种是补全与指代消解，像说“明天上海会不会下雨”，回答了“明天上海小雨”，“那后天呢”缺了主谓宾等一些东西，所以往上去找，把它补全，把“那后天呢”改成“后天上海会不会下雨”，然后机器人就有办法处理。

指代消解也是“我喜欢大张伟”，然后机器人回答说“我也喜欢他”，“他”是谁？这个代名词，我知道“他”是大张伟，所以把“我也喜欢他”改成“我也喜欢大张伟”，这样才有办法去理解。然后那个人就说“最喜欢他唱得《倍儿爽》”，那他是谁？要把它改成写“最喜欢大张伟唱的《倍儿爽》”。这两个是基本的东西，基本上每家公司都能够做得到。

然后我们看难一点的东西，可以不可以做对话主题式补全？这个开始有一些上下文在里面，“我喜欢大张伟”，第一句话目前的对话主题是大张伟，然后它回答说“对啊，我也喜欢他”改成“我也喜欢大张伟”，这没问题。

第二句话是“喉咙痛怎么办？”这有两种可能，因为我现在的对话主题是大张伟，所以可能是“喉咙痛怎么办”，也可能是“大张伟喉咙痛怎么办”，这时候怎么办？我到底应该选哪一个？先试第一个“喉咙痛怎么办”，居然就可以找到答案了，我知道能够找到好的答案，我就回答了“喉咙痛就多喝开水”，目前的对话主题也变成喉咙痛。

第三个是“他唱过什么歌？”这个他到底是谁？有两个对话主题，一个是喉咙痛，一个是大张伟，有可能是“喉咙痛他唱过什么歌”或者“大张伟他唱过什么歌”。因为优先，最近的对话主题是喉咙痛，所以我先看第一个，但是一找不到答案，所以我再去看第二个“大张伟唱过什么歌”，那我知道大张伟唱过歌，所以他唱过《倍儿爽》，我就可以回答，这是对话主题式补全。

另外，利用主题做上下文对话控制。像现在在世界杯，我问你“你喜欢英超哪支球队？”我的主题是“运动”底下的“足球”底下的“五大联赛”底样。的“英超”,我可以回答“我喜欢巴萨”，你问我英超，我回答西甲，这没有什么太大的毛病，虽然最底下的对话主题不太一样，但是前面是一样的。或者你问我足球，我可不可以回答篮球，“我比较喜欢看NBA”，这可能不太好，但是也不至于完全不行。如果我回答说“我喜欢吃蛋炒饭”这肯定是不对的，因为你问我的是运动体育里面的东西，我居然回答美食。

这个对话主题我可不可以根据上下文主题，去生成等一下那句回答应该是什么主题？我可以根据上下文去猜测等一下你的下一句回答应该有哪些关键词，我可以根据上下文猜出你下一句是什么句型，是肯定句还是正反问句。我有了关键词、有了句型、有了主题，我可以造句，造出一句回答，这也是上下文解法的一种。或者我什么东西都不管，我直接根据上下文用生成式的方式回你一句话。这个目前大家还在研究发展之中，目前的准确度还不是很高，但这是一个未来的发展方向。

▌NLU的重要性

NLU我们做了12个模块，最基本的当然是分词，然后词性标注，是主词还是动词、形容词称、第二人称、第三人称，然后命名实体，北京有什么好玩的跟上海有什么好玩的，一个是北京，一个是上海，两个不太一样。然后我如果问“你喜欢吃苹果吗？”“等一下我们去吃麦当劳好不好？”这是一个问句，而且我在问你的个人意见，所以你的回答可能是一个肯定的，可能是一个否定的，也可能反问我一个问句说“等一下几点去吃”，无论如何，你的回答不会跟我讲“早安”或“晚安”，因为我问的是“等一下我们去吃麦当劳好不好。”我们还做了一些奇怪的东西，例如语义角色的标注，后面可以看到一些例子。

以这个句子来说，“我明天飞上海，住两天,要如家”整个句子的句法结构拆出来，核心动词是“飞、住、要”，把它分出来“我飞”、“飞上海”、“住两天”、“要如家”，有了这些核心动词，我知道我的意图不是订机票，如果只有“我明天飞上海”，我的意图可能是订机票，但是因为有后面的“住两天”跟“要如家”，所以根据这些东西判断出来我的意图是订酒店，根据这些东西算出来：明天入住，3天后离店，都市是上海，酒店名称叫如家酒店。整个东西就可以把它解析出来。

这样的解法跟深度学习黑盒子最大的差别是，这样的解法先把句子拆成一些零件，拆成一些基本的信息，我再根据这些信息，可能以深度学习的方式判断你的意图、对话主题，这样我的数据量可以小很多。如果整个大黑盒子，数据量要五十万比、一百万比、两百万比，才能够有一定的准确率。今天我做了足够的拆解，所以我的数据量三万比、五万比就够了，就可以训练出一个还不错的模型。

再介绍一下我如何利用NLU的基础信息，像“上周买衣服多少钱”这句话，我从Speach Act知道这是一个问句，是一个question-info，你不是说“上周买衣服花了好多钱”，这不是一个问句，就不需要处理。是一个问句的话，再看它是一个数量问句，还是地点的问句，还是时间的问句，“我什么时候买了这件衣服？”“我在哪里买了这件衣服？”问句不一样，后面知道查哪个数据库的哪张表。根据核心动词“花钱”跟“买衣服”，知道类别是衣服饰品，不是吃饭、不是交通，由时间知道是“上周”，整个东西就可以帮你算出来。这等于是我一句话先经过NLU的解析，再判断你的意图和细节信息。

▌多轮对话与机器人平台

像刚刚订酒店那个例子，如果表明“我要订酒店”，订酒店有8个信息要抽取，这时机器人要跟你交流：你要订哪里的酒店、几号入住、几号离店、酒店名称、星级、价格等等这一堆东西。今天我们的用户不会乖乖回答。“你要订哪里的酒店？”他可能乖乖跟你说“上海的”、“北京的”，它也可能跟你说“我明天飞上海，住两天，要如家”，他一句话就告诉我四个信息，所以基本用填槽的方式，有N个槽要填。然后看看这句话里面有哪些信息，把它抽取出来，填到相对应的槽，再根据哪几个槽缺失信息决定下一轮的问句该问什么问题，这样比较聪明。举例来说，“我想要买一个理财产品”，“您需要是保本还是不保本？”我只问你保本还是不保本，结果他一次回答“保本的，一年的，预期收益不低于5个点。”他一次告诉我3个信息，而且3个信息已经够了，我就直接帮你推荐，不用再问你“你要一年、半年还是两年的？”这样的机器人看起来就很傻。

我们来看一些Live Demo的东西

第一个是对话机器人的定制，如何快速定制自己的机器人。

我们先切到共享桌面。在这里，假设我现在创建一个机器人，我的名字“小竹子”，然后我是什么机器人？是一个聊天的、电商的还是金融机器人？我是一个聊天机器人好了，两个步骤创建完了。然后可以做一些设置，机器人有形象，每个人拿到机器人会说：你是男生还是女生？你晚上睡觉吗？你有没有长脚？你今年几岁？你爸爸是谁？你妈妈是谁？你住在哪里？你问“你是男生是女生”时我回答“我是女生”，可不可以修改？我修改“我是精灵”或者“我没有性别”，保存。保存以后我还没有修改，因为我没有重新建模，我们先来问问看，“你是男生，还是女生？”它还是说“我是女生”。然后“你叫什么名字？”它说“叫小竹子”。我开始问它“明天上海会不会下雨？”“那北京呢？”这上下文代表北京明天会不会下雨，“北京明天有雨”，我再问“那后天呢？”这个上下文，是北京的后天还是上海的后天？应该是北京的后天，因为离北京最近。

然后再来问它一些知识类的“姚明有多高？”它告诉我是“226厘米”，我再问它“姚明的老婆有多高”，“190厘米”，还可以做些推论，例如像“谢霆锋跟陈小春有什么关系？”这个很少有人知道，谢霆锋的前妻是张柏芝，陈小春的前女友也是张柏芝，所以陈小春是谢霆锋前妻的前男友。这是知识推论。还有一些该有的功能，如果很无聊，机器会跟你聊天。你可以更改任何你想要的回答，你可以更改知识图谱，你可以建立自己的意图。

来看第二个demo，像多轮对话场景要怎么做？

我先创建一个新的场景，场景的名称叫“竹间订餐厅”，触发条件，什么样的语句会触发这个场景？我要新建一个意图，意图的名称叫“订餐厅”，使用者说“我要订位”，或者“我要吃饭”。现在有一个订餐厅的意图，我只要讲“我要吃饭”或者类似的讲法，它就知道我要进入这个场景。下一步，订餐厅有两个信息，至少要知道时间跟人数，我打算怎么问？我可以有默认的问句“你要选择的时间是什么？你要选择的人数是什么？”但这看起来很死板，我可以自定义“请问您要订位的时间？请问总共有几位？”这两个问句分别抽取时间跟抽取人数，然后再下一步。抽取之后可以有一个外部的链接，链接到某个地方去帮你订位。现在选择回复的方式，“订位成功，您的订位时间是**，总共人数是**，谢谢”，储存，我一行代码都没有写，然后开始测试。

再来看下一个demo，直接用桌面来讲，demo订餐馆。为什么订餐馆？因为上个月谷歌demo就是订餐馆，有个机器人帮你到餐馆订位置。我说“我要订位”，它问我“是什么时间？”我这时候可以回答一个句子给它，可以跟它说“国庆节，我们有大概7、8个人，还带2个孩子。要是可以的话，帮我订一个包间，我们7点半左右到，预定8点”“好的”，它只问我一个时间，我回答了这么多东西，有没有办法理解？7、8个人是8个人，不是78个人，还带2个小孩，要是可以的话帮我订一个包间，所以是包厢，7点半左右到，所以预定8点好了，它有办法理解。“好的”，我没有跟它讲时间是早上8点还是晚上8点，“晚上8点”，“需要宝宝椅吗？”“因为我有小孩，所以一张宝宝椅”，问我“贵姓”，我说“富翁”，它帮我订好了，但没位置“要不要排号？”“好啊”，我说我有老人，它帮我排了比较方便出入的位置。“信息是否正确”“没错”，订位完成。

我们再试另外一个，“我要订位”“什么时间？”“后天晚上9点，8个人。”“要包间还是大堂？”“大堂太吵了，包间好了。”我不是用关键词做的，如果用关键词，有大堂，有包间，到底是哪一个？还有预定都包厢贵姓，“李”，排号。“有没有人过生日？是否有误？”“没问题”，它就帮我订好了。一个机器人如果能够做到这个地步，随便你怎么讲，你不按照顺序讲，甚至你还可以修正，说“我有8个人，不对，是9个人”，它可以知道你是9个人而不是8个人。

▌人机交互下一步

有几个案例可以分享：

第一个AIOT的平台，这个东西目前有一些公司有一些企业在做，举例来说，我跟我的手环、跟我的音箱、跟我的耳机说我在家里，我跟它说太暗了，太暗了是什么意思？假设今天我家里有很多盏智能灯都已经接到我的平台上面，所以我跟我的平台讲太暗了，有哪些东西是跟光线有关？我发现窗帘跟光线有关，电灯跟光线有关，我就跑去问说你要开客厅的灯还是厕所的灯还是厨房的灯？这样问其实非常傻，因为我可能人现在是在客厅，你干吗要问我这个东西？但是我没办法人你到底在哪里？这有几个解法，我在家里到处都装摄像头，我就知道你在哪里，但是这是一件非常可怕的事情，家里装摄像头相信里心里不太舒服。

当然过去的技术我多装几个WIFI，我装三个WIFI在你家里三个不同的地方，我利用三角定位知道你人在哪里，我知道你在客厅，你说太暗了，我就把客厅的灯打开，我只要背后都是一个同样的ALOT的中控中心帮我做这件事情。

另外一个我可能有多种选择，我说太热了，太热了到底要开窗、开空调还是开电风扇？机器问你说我要帮你开电扇还是帮你开空调？你说空调吧，现在太热，OK，机器人帮你执行，有些时候人的意图有多种可能性，多个AIOT的家居设备都跟温度控制有关，机器人可以掌握。当然他会聪明一点，不会有18个跟温度有关，他一个一个问，最后人会晕倒，这个东西不会太遥远，我认为在一年半到两年之内这些东西会出来，甚至一年会出来。慢慢你家里会变成用ALOT的整个平台跟LOT的设备来帮你管理这些东西，你会生活变得更方便。

第二个人机交互的下一步是人脸+语音的加入，我可不可以根据你人脸知道你是男生女生，你现在的情绪是什么？是长头发短头发，有没有戴眼镜，有没有胡子？语音识别当然是最基本的，这个已经非常非常成熟了，可不可以知道这句话到底代表什么意思？语音把它转变成文本，如果可以的话还可以知道你的语气，你的语音情绪是愤怒还是悲伤，还是高兴？我可以做一些参考，语音的情绪是非常重要的。

这个东西可以使用，我从人脸表情特征可以做什么，特征做了22种，性别、年龄、肤色、头发、眉头、颜值，长得漂不漂亮，脸形，特征是给人负面印象是冷酷无情，还是有正面印象你是有一个魅力值信赖的人，这第一印象这东西说不准。表情我们做了九种，喜怒哀乐、惊、惧、厌恶、藐视、困惑、中性。还有人脸的行为分析，我的视线目前是专注还是一直这样低头，显得不自信，还是眼神飘忽不定，这东西是什么意思？

我们来讲一个真实的应用的案例。

现在一些新零售，包括无人店，包含一些智慧门店，举例来说，我们在帮某个电视的大厂在某个卖场刚开业，把我们的技术放进去，同时有五家公司都是在卖电视，包括竞争对手索尼，其他知名的品牌，那个卖场开幕三天，我们做了那家夏普收入是90万，另外四家加起来40多万，光夏普一家干掉四家的总和还一倍多。这个怎么做到？第一个可不可以吸引人流？在我的店的门口摆一个屏幕，摆一些东西，你摄像头，你人经过的时候可以抓住你是男生女生，你的颜值怎么样？你的情绪怎么样？非常有趣，所有人经过停下来看，停下来看你是一个四十几岁的男生，推荐里面有什么优惠活动，你是喜欢的，你是一个20岁的女生，推荐另外的优惠活动。你是一对情侣，是一个家庭带着小孩，推荐给你的东西不一样。

大家看到这个东西之后，我进店的人就会有机会比别人多，再来我可以主动式的交互，你走到货架前面，我看到是一个长头发的女生主动跟你聊天，一个机器人，一个屏幕，一个平板，这位长头发的女士你的头发很漂亮，我这里有一些洗发水，有一些润发你有什么兴趣了解，我根据你的属性，因为你是女生长头发，给你推荐某些东西跟你对话，我会跟你说脸上有一些黑斑，我有一些遮瑕膏你要不要？在对话的过程中发现这个人的脸色越来越难看，我赶快停止这个话题，这个东西不应该继续讲下去，是人脸的特征，人脸的情绪跟整个人机交互综合的应用。

我们也可以做到，我在一些过道上面，这个商场的过道，我知道你的人进到店里面你是怎么走动，我发现你在某一台电视前面停了五分钟，停了特别久，你离开了什么都没有买。两天后你带着一家大小来了，这是什么意思？你带着老婆、带着小孩上门，这可能代表你要来做决定你是要花钱的，而且我根据你上次的线上购买记录，因为我知道你的脸部，知道你是谁，知道你的会员编号，我知道你上次买了一台2万多块的冰箱，所以我知道你的消费能力不是那种一两千块钱，你可能是两三万，我马上通知销售员跟他说，这个人来了买电视，因为他两天前看过某一些电视，而且他的消费能力是以万来计算的，是万等级，所以你上去不要推荐他四千块的电视，你就是往高往贵推荐。也是因为这样子，我们的卖场，我们的销售的业绩能够比别人好。这些东西我相信在半年一年内，大家在各种各样的商场会大量看到。

最后我们举个例子。今天你们可能说我每个人都有一个机器人，我戴一个手环，手环的背后接我的机器人，我到每个店家也都有一套机器人，麦当劳有一套机器人，肯德基有一套机器人，今天我走进麦当劳，对着我的手环说我喜欢吃巨无霸，大杯可乐去冰，我的机器人听到以后，我机器人主动去找麦当劳机器人，跟它说我要什么东西，两个机器人之间的对话，不需要用中文，不需要用人类的语言，他们直接数据格式的交换，机器人有机器人的语言，他们自己交换，交换完以后麦当劳机器人接到这个订单通知后面，告诉我三分钟之后过来拿，可不可以这样子？我的手环告诉我说，三分钟之后可以过去拿。所以未来真的变成一个机器人世界，每个人都有一个代语，机器人跟机器人去沟通，把这个东西做好。

▌Q&A 时间

今天是我的分享，再下来是交互的时间，各位有什么问题想要问的？有人问一下提一下相关技术，看一下什么相关的技术？如果是图像的话，图像最顶尖的公司各位都可以查得到，当然目前比较以安防为主，不管是刷脸门禁，慢慢做到情绪情感的部分。如果是平台的部分，目前全国做的也差不多有一二十家公司，大家各有它的优缺点，看你是一个封闭的平台或者是开放的平台，你找人工智能平台，语意理解平台，人工智能机器学习训练平台都可以找得到。

1.有人问说出现设定外的情绪机器人能处理吗？

例如说我的语音情绪做了四种，高兴、中性、愤怒跟悲伤，那突然出现一个害怕，语音出现害怕作为分类是分不出来，这是没办法处理的。

2.有人问到表情的理解，我大概讲一下我们怎么做的？

我们人脸表情光标注，标注了200万张的照片以上，每张照片三个人标注，三个人都说他是高兴，OK，他是高兴，三个人说他是悲伤，他是悲伤，三个人意见不一致，我找心理学家来做最后的判断，你去算一算，200万张的照片三个人标注，总共600万人次，你需要多少时间？多少钱？

3.多模态情绪怎么做？

通过人脸表情算出一个分数，语音情绪算出一个分数，文字的情绪算出一个分数，我们背后有两种模型，第一个规则，人脸表情就是多少分，语音情绪多少分以上，我加成上一个比重，或者说文字情绪算出来，这是一种方式。

另外一种，我们后面用的一个深度学习的模型，我们把这些所有的值标进去算出一个总情绪，当然一样需要大量的标注数据。

4.有人问对话的答案是能机器人自动合成组合出来吗？

这是自动生成的范围，目前来说我认为，我实际上看到正确率大概在3—5成之间，它回答好的大概在3成—5成，有一半的概率不靠谱。

5.知识图谱学习多少可用？

这个东西看你的领域，如果你是金融领域，金融知识可能12万、18万就够了，如果你是一个医疗领域，可能是几十万，但是如果你是聊天的领域，衣食住行、电影、电视这些东西，加起来要800万—1200万知识图谱的数据量。有些公司大企业做搜索引擎的，天生的数据量特别大，知识图谱可能有8亿，有20亿，非常非常大量的数据。

6.有人问到说交流的过程中打错字怎么办？语音转文字效果不好，如何提高意图识别准确率？

在有限的场景之下，这个有办法做到，像电视就68个意图，100个意图，可以做的非常准，真的可以转成拼音去做，或者真的用一些模糊匹配的方式，可以把匹配的阈值放大一点可以做得好。在一个聊天的场景，有限的场景这个是不可能做得好的。

这其实是包含语音识别在内的，语音识别大家的普通话不一定很标准，像我也是有口音的，所以我语音转转文字，可不可以把它转成拼音，我把平舌、翘舌、前鼻音、后鼻音把它去掉，这样ch就跟c是一样的，zh就跟z是一样的，我用这些方法是做正规化。这些东西尤其在找歌曲的名字、电影的名字、视频的名字非常有用，因为你歌曲的名字那么长，视频的名字那么长，电视剧的名字那么长，你不一定讲对，我要看《春娇志明明》，没有春娇志明，是《志明与春娇》，我要看《三生三世》，我知道三生三世十里桃花，我要看半月传，芈月传传那个芈我不会念，我念成半月传找不到，但是我发现用户查字典，问了人，下句话他讲对了我要看芈月传，我发现你上面这句话跟下面这句话句型非常非常类似，你上面那句话找不到，下面那句话居然找到了，我可不可以说可能半月传就是等于芈月传，自动把它抓出来，做得好由人工判断，人工做最后的判断，这些东西就打勾打勾，这些东西是同义词，一样就把它输入进去重新训练就好了。

7.有人问到对话主题怎么建立？

我这个屏幕有限都是跳着回答，对话主题不算很庞大了，你的主题看你做到几百种几、几千种，主题是有阶层次的关系。就是说你的对话主题做出来之后你如何确定这句话是什么主题？当然有关键词，也有机器学习、深度学习的方式都可以去做，而且准确度不会太低。

8.有人说在交流的过程中出现场景之外，怎么做到多轮？

就像刚刚那个我订酒店机票订到一半突然说我失恋了，机器人可以怎么回答？机器人可以开始跟你聊失恋的话题，订酒店就算了，这是一种解法。列另外一种解法，我订酒店订到一半失恋了，我跟你说你失恋了好可怜，敷衍你一下，继续问你说刚刚酒店还没有订，你要不要订？你要不要继续？我先把前一个场景处理掉，确定你场景已经结束，我才让你到下一个场景。

9.有人问怎么判断哪个答案更好？

假设我背后有18个模块，有20个模块，有20个模块都可以出答案，天气、讲笑话、知识图谱的聊天、各种各样的场景、订酒店、订机票，一样我一句话进来，我可不可以让每个模块举手，这个模块说这句话我可以回答，别的模块说这句话我可以回答，当然每个模块都会回答，而且每个模块除了回答以外会有一个信心分数，当然有些模块我都是100分，跑来抢答案，这个时候就要看你到底靠不靠谱？当然我在我的中控中心，我根据上下文判断我的情绪，我的意图，我的主题，我发现说你的对话主题是体育、运动，回答的对话主题是美食，我把这个答案直接丢掉，我发现你的问句是快乐的，回答居然是一句悲伤的句子，直接把它丢掉。我可以利用我的中控中心做这样的事情，还是没办法，有些模块是乱回答的话，我把它分数降低，它以后宣称它自己是100分，我都打个八折，以证明它不靠谱。

10.一语双关的语句可以理解多少？

这个非常难，这个是目前解不了的，现在世界杯，我们举例，中国乒乓球谁都打不赢，中国足球谁都踢不赢，这两句话的句型完全一模一样，但是意思可能是相反的，那这个东西怎么理解？老实话目前还做不到这个地步，不知道五年后、十年后可能有机会，刚刚两句话你去问一个小学生，其实小学生也搞不懂，你要足够的社会知识，你有足够的社会历练你才知道这句话什么意思。

11.怎么知道机器的回答对不对？

有几种方法了，有一种还是看人工，我今天机器人回答，这个用户就生气了，用户说你这个机器人好笨，我都听不懂你在讲什么，显然这个机器人回答不好，我就可以反馈回去说这个回答不对。另外一种，我发现我回答以后，这个用户决定直接转人工，假设我是一个智能客服，回答完以后用户决定转人工，代表我刚刚的回答肯定是有问题的。第三种是说，我同样的问题问了第三次，我开户该带哪些证件？机器人回答我不满意，我再问我到底该怎么开户？再问说开户到底应该怎么办？我三个句子不太一样，其实意思是一样的，所以今天当问了第三句话，代表我前面的回答一定不对，用户会问到第三句，基本上靠人的反馈来做。

12.有人问对于学生有什么建议？

在校的学生我的建议是说，你要先想，你现在有很多（01：00：35英文）各式各样的框架，数据网络上也都能拿得到，甚至这些代码都可以直接下载，你就可以做一些基本的东西，这是练习，你最后要解决仍然是真实的问题，你到底要解决什么问题？解决那些问题你打算怎么解？你要设定一个目标，解到使什么地步才是人类可以用的，而不是做一个模型，做一个PPT，这个是不够的，你越早能够知道人工智能实际的技术边界在哪里，什么东西只是一个花俏的东西，什么是东西是真的可以用的，这个对你未来进入职场会有帮助，或者对你未来研究的方向有帮助，毕竟人工智能帮助人，帮助各种各样的行业，才能够帮上忙。

13.有人问什么时候机器人可以写一本中文小说，或者机器人什么时候可以思考？

我觉得还非常非常遥远，也许十年，也许十五年，机器人的思考方式一定跟人是不一样的，但是现在机器人都是一大堆的规则，我不觉得机器人是可以思考，甚至有创造力。

14.五年内人工智能的实际应用场景结合最好的方向？

这个我无法预测，人工智能目前都在摸索，我大概可以猜到一年后会有哪些东西？哪些东西是假的，哪些东西不可能实现的，哪些东西是有机会的，一年内我大概可以猜得出来，五年内我猜不出来，因为技术的发展超过我的控制范围。但是我觉得深度学习、机器学习没办法解决NLP，NLP的复杂度不是可以解决的，而且没有这样的数据链，NLP要解决好也许还出现更新的科技能够出来。

15.如何断句，如何分词？

这样说好了这其实是一个大的难题，我在黄浦江边，我是分成黄浦跟江边，还是黄浦江跟边，你好可爱，是你好、可爱还是你好加可爱，我们先不要讲长句，光这个短句分可能分错，有时候你好在一起，有时候你好要分开，这个东西只能说我拿现在的东西，我再去不断不断优化，而且有可能说，我们累积好几万的bug，我去看这些bug我可能用新的模型来解，新的bug可能用新的算法来解，一群一群去解这些问题，才能慢慢前进，这个没有什么快速的方法。

我们今天的分享就到这里。谢谢各位！

人机交互如何改变人类生活 | 竹间智能公开课笔记
作者 | 翁嘉颀编译 | 姗姗出品 | 人工智能头条（公众号ID：AI_Thinker）【导读】在人机交互过...
【课程笔记】竹间智能CTO翁嘉颀：人机交互未来如何改变人类生活【
分享地址：https://edu.csdn.net/huiyiCourse/detail/804 时长：67min...
2017-05-26
人工智能和人类智能有什么区别？人工智能将怎样改变生活产生什么样的工作机会是否会统治人类人类世界即将改变？你...
2018开年第一场AI与移动技术大会早知道！
大会部分亮点 ✦ IBM 认知计算如何实现更智能的人机交互? ✦ Intel 的人工智能解决方案如何“神助攻”? ...
seki & 竹间智能
依原题意，设共有N件商品，M种套餐。标准解法： 1、所需数据结构： 2、数据结构说明： 3、解题核心思路：...
情感建模
一、情感建模随着人工智能技术的发展，人机交互方式越来越向着人类自然交互方向发展，但传统的人机交互方式是机械化的，...
每天听本书—AL未来
《AL未来》人工智能未来如何发展，最重要的因素是人类如何采取行动。人工智能固然强大，而人类独有的爱才是我们生活...
逆天解析AI黑暗科技：人工智能或将取代家长，2岁孩子掌握两国语言
人工智能正在改变人类的生活方式，不是在将来，就在现在。人工智能的出现，即将使人类的生活发生翻天覆地的变化。比如...
2019-02-11
01、人工智能未来如何发展，最重要的因素是人类如何采取行动。 02、人工智能固然强大，而人类独有的爱才是我们生活中...
投知识：——手势识别已走进我们的智能生活
手势识别已走进我们的智能生活科技引导新生活，人机交互越过屏幕触摸向非接触式的手势识别的方向大踏步的发展，人机交互...