1、To C艰难、To B突破:当前2C的产品全部没有达到用户的预期,智能助理看似比专业领域的AI更简单,但实际上恰恰相反。打败柯洁的围棋AI好做,通用的日常任务助理如订餐、行程安排却难做。这不是商业模式的选择,而是技术上的限制:To B,特别是限定领域的产品,封闭不容易发挥跑题,而且数据比较充分,相对To C领域的产品更加可行。
2、身着皇帝新衣的人工智能:不管是Sophia还是酒店银行的大堂机器人,都是带喇叭的木偶,他们回复的内容要么是人工撰写好,然后利用语音合成输出,要么是真人远程录音。
3、大佬的观点:Yann LeCun和Hinton认为当前基于统计的机器学习技术来实现“人工智能效果”是行不通的。因为主流的基于统计的机器学习特别是深度学习,是通过大量的案例对文本的特征进行归类,来实现语义识别的效果,这种做法只对现象进行统计和归纳,没有对原因进行推理,形同“罗素鸡”。
4、人工智能的现状:智能助理依然智障,大部分To B的人造机器人都无法规模化,对话方面没有像Alpha Zero在围棋领域那样让人震撼的产品,没有商业上大规模崛起的迹象。
5、对话系统的现状和本质:对话系统中,用人工来撰写内容,或者使用模板回复,这是现在技术的现状。虽然每个对话系统背后的“对话管理”机制都不同,每家都有各种理解、各种设计,但是万变不离其宗——“填表/填槽”是对话系统的本质。剩下的无非是产品设计、工程实现、如何解决体验和规模化的困境这类问题。
6、对话的黑箱:对话智能的交互是一个黑箱,终端用户能感知到自己说出的话(输入)和机器人的回答(输出)。其核心是两点:听人话(识别)+讲人话(对话管理)。
7、ASR和NLP:机器学习特别是深度学习带来的语音识别和自然语言理解主要解决的是识别人讲的话,其中的关键是“意图识别(intent)和实体提取(slot)”。由于机器学习领域的重要论文都是公开的,每家在自然语言识别这个领域的基础工具都差不多(intent和slot的准确率只有百分点的差异),因此听人话(识别)不是核心竞争力,讲人话才是(非控制类产品,任务型)。
8、对话流程:
ASR:讲用户的语音转化为文字(深度学习)
NLU:意图识别和实体提取,如图中intent是“订机票”,slot是“明天”(深度学习)
填表:选择intent是“订机票”的这张表,将已知的slot“明天”填到表格中
缺啥问啥:表格中缺什么就回答什么,如表中缺“出发地”就问“从哪里出发”,缺“目的地”就问“你要到哪里去”
TTS:把回复的文本合成语音播出去
9、不要用轮次来衡量产品水平:在任务型对话系统里,“轮数的产生”是由填表的次数决定的,以“轮数多少”来衡量产品水平的方法,在任务型对话里完全无意义。硬要有意义,应该是:在达到目的且不影响体验的前提下,轮次越少越好。
10、常识的重要性:很多推理都是基于世界知识(包括常识)的,缺乏常识就没有推理的基础。
11、对话系统更大的挑战不是NLU:深度学习在对话系统里面,能做到的只是识别出用户讲的那部分,回复用户的那部分是需要人来设计表格、编程实现的。在产品层面,一旦用户谈及到表以外的内容,就会出现人工智障的情形。每个人自身都是一个自然语言处理系统,各不相同,希望设计出一次就能处理所有场景问题的对话系统,目前都无解。
网友评论