昨天有幸去中科院计算所参加了CCFTF第九期培训,主题人机对话。作为计算机行业从业者,到这个圣地听学习,真是一种享受。(注:中科院计算所是863计划的发源地)
第一位分享嘉宾是思必拓北京研发院院长初敏博士,题目是启发式对话助力企业服务智能化。初博士先简单介绍了自己的从业经历(10年msra,8年阿里大数据,去年加入思必拓),然后从工程实践的角度介绍了人机对话。她认为语音交互正在成为一个入口,包括完成任务(澄清用户意图,信息查找/动作执行,结果沟通),ontology驱动任务系统,语言理解(上下文、场景判定领域,意图判定,关键词信息抽取),意图分发,答疑解惑(faq和知识图谱,其中知识图谱就是一堆三元组,回答事实型问题和做图数据库存储查询),知识传播等内容。最后初博士还演示他们的启发式对话系统。
Ontology对话系统流程第二分享嘉宾是京东AI实验室副主任何晓东博士,自然语言理解的突破。何老师先简单介绍了一下自己的研究经历。然后用技术发展的盖特纳曲线图,指出了自然语言处理的发展路径。接着,何老师提出了NLP的两大部分:让AI理解人类(解析语义,理解意图,识别情绪,搜索推荐)和让AI以人类能理解的方式表达(内容生成,话题展开,文本摘要,情感对话)。何老师依次介绍了他在微软和京东的多个工作成果,包含以上两部分(如计算机画画,作诗)。特别让人眼前一亮的是一位微软盲人软件工程师使用技术工具帮助其理解各种场景的语义。另一条叙述线索,是从传统的pipeline方法,演进到端对端的深度学习方法。
下午有三位分享嘉宾。第一位是歌尔创新实验室的张向东院长,题目是从盲人摸象到曹冲称象。张老师先介绍了歌尔公司,以及其产业战略。然后介绍了他的从业经历,缅怀了俞铁城老师,阐释了他和语音的分分合合,提到了投资人视角看技术对他能跳出来看语音技术应用有很大帮助。重点介绍了MIT的Victor Zue教授对他的影响,Zue教授是美国最早做人机交互系统的,最早就是搞一个盒子,里面坐着人回答实验者,接着用程序系统帮助人来对话,最后用人工来校验系统,直到错误率达到5%以下,就可以机器换人了。张老师说他当年不是很明白,20年后的今天越来越明白机器换人的思想。最后,张老师介绍了机器换人在歌尔的一些实践,其中包括call center,器件检测等。
MIT Victor Zue的Oxygen模型体现了“机器换人”思想第四位分享嘉宾是北大的吴玺宏教授,题目是人机对话系统研发中的若干问题探究。吴教授独辟蹊径,首先指出任务导向对话系统的现状和问题(语法,语义,知识,语用,对话流程),接着指出这些问题的解决之道——标注数据,进而引出这种做法的困境。然后用认识论的三次转向,引出科学和工程的转向,并指出语言理解应该要加入对符号结构的理解。最后,吴老师用他们团队的两个成果解释了这种方法的应用,不需要太多数据也可以做出很好的效果。
科学和工程的转向最后一位分享者是阿里达摩院的付强研究员,主题是语言前端处理和交互。付老师先介绍了阿里达摩院。然后重点介绍了语音识别技术(回波抵消,解混响,宽带空域滤波,背景噪声抑制,自动增益控制),讲了很多信号处理的技术和实践。介绍的线索就是技术路线演变,传统信号处理,到信号处理与机器学习结合,到前后端联合优化。最后付老师,还介绍他在阿里交付的一些成果,包括软核方案和硬核模组,上海地铁语音售票系统等。
语音识别技术的三级跳活动的最后,还有一个panel环节,除了下午的三位演讲嘉宾,还邀请了出门问问的CTO雷欣和自动化所的陶老师。大家首先讨论了人机对话的学术难点,包括未来的方向是走语音识别+语言模型,还是一体化深度学习方法;语音中的口语化问题(没有语法特征);混合语言、方言;雷博士提到了热唤醒的误触发、识别鲁棒性、自然语言理解、多人对话等。接着,大家又对语音应用的引爆点各抒己见:雷欣认为是车载和某些智能家居(看好电视不看好音响,中国人没有习惯),陶老师认为还包括有大量内容不方便输入的情况,看好音响不看好电视(电视需要预热看到节目才能选择);吴老师举了个用语音写论文的反面例子,并引出好语音应用的三个标准(没记住。。),指出call center就是引爆点;付强老师强调还是要将技术、内容、服务打穿。
panel环节,大咖云集
网友评论