姓名:李昕洲 学号:16030120026
转载至:http://m.uczzd.cn/webview/news?app=smdsiflow&aid=12962439932390617602&cid=0&zzd_from=smds-iflow&uc_param_str=dndsfrvesvntnwpfgicp&recoid=&rd_type=reco&sp_gz=0
嵌牛导读:随着人工智能的发展,在出现了语音识别、面部识别后,而今冒出了唇语识别,本文将带你了解其技术路径及应用。
嵌牛鼻子:唇语识别、"密语传声"、唇语识别率、应用价值。
嵌牛提问:唇语识别原理?精准度如何?有没有实用性?
嵌牛正文:
唇语识别技术唇语识别通过机器视觉技术,从图像中识别出人脸,并提取此人连续的口型变化特征,将连续变化的口型特征输入到唇语识别模型中识别出对应的发音,再计算出可能性最大的自然语言语句。
只动动嘴巴,即使不出声,光看口型就知道你在说什么,这种存在于武侠剧中的桥段正在加速成为现实。日前,在乌镇第四届世界互联网大会上,基于人工智能与大数据可视分析能力的唇语识别系统能够实现“密语传音”,成为时下最吸睛、最炫酷的黑科技之一。
当你说出“这首歌叫什么名字”时,机器不用收音、进行语音识别,通过识别你的唇部动作,就能准确识别语义的内容。这让不少体验后的网友感叹,“之前只知道有语音识别、面部识别,没想到还能唇语识别,有种武林高手的感觉!”
据研发企业海云数据介绍,唇语识别的原理其实是使用机器视觉技术,从图像中识别出人脸,判断其中正在说话的人,并提取此人连续的口型变化特征。随后,将连续变化的口型特征输入到唇语识别模型中识别出对应的发音。最后,根据识别出的发音再计算出可能性最大的自然语言语句。
那么,唇语识别的精准度如何?海云数据创始人冯一村表示,通过使用1万多小时的新闻素材对唇语识别系统进行训练,目前海云数据对英文的识别准确率在80%左右,中文准确率为71%,而国外所知的最高识别率仅为不到50%。未来,随着“语料”越来越多,唇语识别率还将获得稳步提升。
相比于唇语识别的技术路径,人们更关心它将用于何处。据悉,唇语识别应用技术是目前国际研究的热门课题,可应用的领域包括场景教育、身份识别、公共安全、移动支付、军事情报等。比如,通过唇语识别,可以让无法开口说话的残障人士自由表达、让听力障碍者和不少老年人更清晰地听懂他人;通过口型支付密码,可以进行移动支付;而在军事情报领域,唇语识别则让远距离获取情报成为可能。
“最初的想法是用于公安系统中,因为公安部门的视频数据占到其全部数据的95%以上,基本都是无声数据,激活视频的语义内容价值非常巨大。”冯一村说,可以预想,加入唇语识别技术后,公安人员可通过平台锁定视频中犯罪嫌疑人的语言记录,这将极大助力犯罪缉查工作的开展。
值得一提的是,唇语识别背后并不是一个小众的市场。在噪音太大或只有摄像头等无法捕捉声音的场合中,唇语识别技术具备很强的实用性。比如,在公路、会议室、火车站等噪音嘈杂的场景中,唇语识别可以帮助规避音频噪声对用户说话内容获取的影响,确保交流顺畅进行。而在电梯、公路等监测场景,只有摄像头,没有麦克风,通过唇语识别技术,可以获取重要的用户讲话信息,为公共安全提供有效的支持。
唇语识别技术搜狗也在本届互联网大会上演示了其最新的唇语识别系统。该系统可提取人面部的三维图像信息,提取面部的动作序列,识别的效果相比以前更准确。据介绍,未来这项技术有望应用于车载系统,以及帮助听障人士“翻译”正常人语言,通过唇读技术把语音转换成文字,帮助他们更好地了解世界。
业内人士预计,鉴于在公共安全、身份识别、残障教育、军事等领域的竞争力,唇语识别技术或将开启万亿级的大数据市场。但鉴于语言环境的复杂性,唇语识别真正投入实战还尚需时日,仍需进一步加强大数据、可视分析、人工智能技术等领域的融合研究。
网友评论