美文网首页技术科普集
语音识别长篇研究(五)

语音识别长篇研究(五)

作者: 放飞人夜 | 来源:发表于2020-02-06 20:32 被阅读0次

    承接上文

    放飞人夜:语音识别长篇研究(四)​zhuanlan.zhihu.com

    十、语音识别公司盘点

    1、国外语音交互识别供应商

    (1)Nuance

    Nuance全球最大的语音技术公司,超1000项专利技术。目前世界上最先进的电脑语音识别软件Naturally Speaking就出自于Nuance公司。用户对着麦克风说话,屏幕上就会显示出说话的内容。T9智能文字输入法作为旗舰产品,最大优势支持超过70种语言,超过30亿部移动设备内置T9输入法。已成为业内认同的标准输入法,被众多OEM厂商内置,包括诺基亚、索爱、三星、LG、夏普、海尔、华为等等。T9全球市场占有率超70%,中国超50%;

    Nuance的产品提供人性化、高效率的电话口语或语言辨识功能,消费者可透过传统的电话系统或行动电话以自然口语交谈的方式完成资料查询及商业贸易,使用轻松。在类似的产品中拥有最高的语音辨识率,英文可达99%。其英文语音产品Dragon NaturallySpeaking9在法律和医院临床记录占据很大市场;

    Nuance是全球最大的语音识别技术公司,这十几年里,其经历了无数次起起落落:曾被苹果、Google、三星捧在手上,被绝大多数语音公司为之朝贡。之后却连连遭遇市值暴跌、技术瓶颈、客户流失、离职潮、错过最佳出售时间等,最终不得不从只专注纵向深耕算法的技术提供商转型为横向扩展各行业解决方案的公司。

    (2)微软

    提到微软在语音交互的布局,不得不说起微软两姐妹,小冰和小娜。微软现在有三款聊天机器人,主打情感计算的小冰、主打商务助理的小娜,还有在垂直领域的深度应用智能客服。

    微软过去几十年做的人工智能方面的研发集成到Azure云上去,Azure云支持IoT、Bot Framework,第三方用微软的人工智能技术,已经可以通过Bot Framework、Azure IoT等来做。

    Azure云可以实现更多的事情,像语音识别、语言理解、机器翻译、语音合成。

    (3)Sensory

    Sensory 致力于改善用户体验通过嵌入式机器学习技术,如语音、视觉、和自然语言处理。开发、生产高性价比的语音识别产品。二十多年前公司的创立者开发了第一个语音合成芯片,率先将音频技术应用到PC机和消费电子产品中。

    Sensor的技术从数以百计的出货量在20亿产品领先的消费电子产品制造商包括丙氨酸,孩之宝,华为,谷歌,JVC,LG、摩托罗拉、美泰公司Plantronics,三星、索尼、世嘉,Uniden,V-Tech。感觉有超过35发布专利覆盖语音识别在消费电子,生物认证,传感器/语音组合,语音识别在DSP的,客户端/云使用语音技术等等。

    (4)谷歌

    Google一直致力于投资语音技术,此前收购多家语音识别技术公司及专利。

    2011年,收购语音通信技术公司 SayNow 和语音合成技术 Phonetic Arts。 2014年收购SR Tech Group的多项语音识别相关的专利,其中包括 “ 搜索引擎语音界面” 和 “ 修改、更新语音识别项目系统” 的专利。

    今年4月份Google还开放了自己的语音识别API,即Google 语音搜索和语音输入的支持技术。Google Cloud SPeech API包括了80多种语言,适用于各种实时语音识别与翻译应用。

    2017年,谷歌宣布了用于语音交互的Actions on Google平台得到进一步扩展。现在该平台将支持所有Google Assistant所支持的平台,在功能方面,Actions甚至允许用户通过语音完成交易。

    (5)苹果

    苹果收购过Siri、Novauris、VocalIQ等语音技术公司,且请了不少牛B的人组建基于神经网络算法的语音识别团队。

    苹果正依靠语音助手Siri构建更大的生态系统,在最新的HomeKit的合作伙伴名单中,除了国内厂商海尔,还有照明厂商飞利浦、科锐 (CREE),以及Marvell(美满电子)、Honeywell(霍尼韦尔)等全球顶级制造商。

    (6)亚马逊Alex

    Alexa是亚马逊的云语音服务提供数以百万计的设备从亚马逊和第三方设备制造商。用Alexa,您可以构建自然声音的经验,提供客户更直观的方式与他们每天使用的技术。我们收集的工具、api、参考解决方案,和文档方便任何人用Alexa构建。

    亚马逊Alexa与谷歌Assistant正围绕各自的语音助手辅助应用展开激烈的竞争,两家公司都在努力让助手们尽可能多地搭载汽车、智能音箱、集线器、耳机、智能手机和其他设备上使用。例如,谷歌最近宣布与门锁制造商西勒奇(Schlage)在语音助手方面进行合作,而Alexa也即将应用于蓝牙汽车充电器。谷歌与它的智能助手相比Alexa确实更有优势:它在许多国家(在欧洲和其他地方)比Alexa更有市场。方案,和文档方便任何人用Alexa构建。

    2、国内语音识别交互供应商

    (1)蓦然认知:

    蓦然认知成立于是一家以认知计算、自然语言理解技术为核心的人工智能公司。提供”信号处理+语音识别+语义理解+服务自动对接”的一站式“对话机器人”解决方案, 通过云端深度对接服务和内容,以语音对话方式来分发各种服务;同时,“对话机器人”可以驱动各种设备与人自然交互,进而构建无缝的智能化机器协作网络,高效完成任务。拥有覆盖智能车机系统,智能电视系统,智能音箱系统的成熟产品,覆盖智能车载,智能家居的成熟解决方案。

    和国内的不少著名语音交互公司一样,,蓦然认知的技术骨干也都是来自BAT语音技术方面的专家。拥有成熟的技术团队,成立两年多,已经发展到准独角兽规模,总部成员近百人,深圳和上海都开设了分公司。迅速抢占市场,成为语音界新贵。

    核心团队:

    戴帅湘,北京蓦然认知科技创始人,CEO;前百度主任架构师,长期担任百度Query理解方向负!责人,是语义分析方面的专家;百度语义技术的最高奖-----第一个也是迄今为止唯一 一个以NLP技术为核心的最高奖;2010年提出“Query改写模型”给百度搜索引擎技术带来了搜索相关性和广告收入均大幅提升,在自然语言处理、语义搜索、自动问题求解等领域内有20多项专利技术 ;曾主导设计了百度度秘,百度框计算,及百度输入法中语言处理的核心算法;

    龚思颖--市场总监(联合创始人),前大疆创新北美地区人力资源及客户关系负责人;

    张伟萌--技术总监(联合创始人),曾百度百度任职6年多,研究自然语言处理技术;2008年硕士毕业,有9年自然语言处理的工作经验,有近10项专利技术发明;

    李国华--资深技术专家(联合创始人),曾为百度自然语言处理部资深工程师,2012年硕士毕业;

    洪涛--首席技术顾问,百度首位高级科学家,有20多年的行业经验;

    (2)科大讯飞

    科大讯飞股份有限公司从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。

    科大讯飞作为中国智能语音与人工智能产业领导者,在语音合成、语音识别、口语评测、自然语言处理等多项技术上拥有国际领先的成果。

    2015年,科大讯飞重新定义了万物互联时代的人机交互标准,发布了对人工智能产业具有里程碑意义的人机交互界面——AIUI。2016年,围绕科大讯飞人工智能开放平台的使用人次与创业团队成倍增长。截至2017年1月,讯飞开放平台在线日服务量超30亿人次,合作伙伴达到25万家,用户数超9.1亿,以科大讯飞为中心的人工智能产业生态持续构建。

    (3)思必驰

    思必驰专注人性化的智能语音交互技术,思必驰是国内拥有全套语音类知识产权的公司。在语音识别、语音合成、语义理解、声纹识别、对话管理、音频分析等方面均有深厚技术积累。国际上极少数拥有自主产权、中英文综合语音技术(语音识别、语音合成、自然语言理解、智能交互决策、声纹识别、性别及年龄识别、情绪识别等)的公司之一。

    目前思必驰把语音相关技术整合成 AI OS 人机对话操作系统,作为安卓系统之上的一层标准接口,提供给硬件合作伙伴。针对不同场景,AIOS 又分成了 For Car,For Home,For Robot 等版本,针对车载、家居、机器人等产品做垂直领域下的对话式交互。

    (4)出门问问

    出门问问应该是除了科大讯飞和百度以外,唯一一家有全套语音交互核心技术的创业型公司。

    (5)云知声

    云知声,是一家专注物联网人工智能服务,拥有完全自主知识产权、世界顶尖智能语音识别技术的高新技术企业。

    云知声利用机器学习平台(深度学习、增强学习、贝叶斯学习),在语音技术、语言技术、知识计算、大数据分析等领域建立了领先的核心技术体系,这些技术共同构成了云知声完整的人工智能技术图谱。在应用层面, AI芯、AIUI、AI Service三大解决方案支撑起云知声核心技术的落地和实现,目前已经在家居、汽车、医疗和教育等领域有广泛应用,形成了完整的“云端芯”生态闭环。

    云知声自成立以来,发展迅速,备受人工智能行业及资本市场的广泛关注,累积融资近亿美元。云知声的合作伙伴数量已经超过2万家,覆盖用户已经超过2亿,日调用量2亿次,其中语音云平台覆盖的城市超过647个,覆盖设备超过1亿台。并且,云知声连续两年入选福布斯中国最快科技成长公司50强企业,是中国人工智能行业成长最快的创业公司之一 。

    (6)哦啦语音

    哦啦语音于2013年初成立,拥有在中文自然语言理解、语音识别、语音控制和语音交互系统等方面的 20 多项自主专利。目前已应用在智能家居、智能车载、可穿戴设备、语义和交互API服务、智能会议系统、手机语音助手几个方面。他们家最大的特色,是对于中文语义的理解,针对用户各种问题可以给出生动、活泼、幽默、精确的回答。通过哦啦,用户可以通过语音控制,实现用户对各种生活信息的实时查询和操作、对手机内各个程序的调取要求,以及在界面内实现人机互动聊天、娱乐等需求。在未来,用户只要打开哦啦,就可以完成所需要的手机操作。是第一款实现对于用户连贯性提问进行全文解析的语音助手。

    (7)问之科技

    问之科技是一家从事产品自主研发的高科技企业。问之科技专注于人工智能产品和技术研究领域的开发,致力于打造中国机器人的最强大脑。以语音、语义、视频技术为核心服务于机器人及智能家居领域,一切旨在为拓展智能交互新体验,用声音传递简易生活方式。

    (8)SoundAI(声智科技)

    SoundAI是一家专注声学前沿技术和人工智能交互的科技创新公司,致力于引领真实环境下更自由的人工智能交互体验,实现“听你所言,知你所想”的人机交互愿景。

    SoundAI提供从软硬件到云服务的远场语音交互技术方案,以及从芯片模组、PCBA到工业设计的Turnkey产品方案,其回声抵消、噪声抑制、声源定位、混响消除、波束形成、远场语音唤醒、远场语音识别等技术在业界遥遥领先;同时,声智科技与ARM、NVIDIA、Xilinx、Cypress、Knowles、百度、腾讯等著名企业深度合作,深耕智能家居、智能汽车、智能安防、智能金融、智能教育和机器人等行业,服务于小米、360、京东、联想、海尔、创维等著名品牌,共同提升远场语音交互的用户体验。

    同时,全面采用声智科技语音交互解决方案和模组的产品也已经陆续上线。

    SoundAI努力以技术拉动产业,以技术改变生活,以技术服务社会,持续推动国内外声学领域和人工智能领域的产品升级和技术创新。

    (9)慧听科技

    慧听科技是数据服务提供商。拥有一支专业的数据制作团队,负责完成过语音识别、语音合成、语音评测、语言文本类、多媒体类等多领域数据制作,并参与过语音合成、语音识别、输入法系统的研发。同时,慧听科技还有一支高水平技术研发团队,为数据服务提供强大的技术支撑。公司的硬件设施过硬,拥有符合ITU国际标准的录音室和录音设备。在管理方面,慧听公司采用全程质量监控流程,执行完善的标注流程,配合保密管理手段,提供质量上乘的数据服务。

    目前,慧听科技能够提供语言语音、多媒体两大类几十余种数据服务。

    (10)驰声科技

    驰声科技专业从事智能语音技术研究和产业化的教育科技公司。是国内最早进入教育行业的语音公司之一,驰声科技自主研发了基于大数据、深度学习的智能语音系列技术,帮助客户实现人机互动的智能学习产品,引领教育信息化创新发展。

    迄今,驰声科技已在培训、出版、教育软件、在线教育、教育硬 件、考试服务等领域培养了一大批标杆客户,驰声科技的智能学习技术也已惠及海内外数以亿计的个人学习者。市场上应用了智能语音技术的教育产品 半数以上都采用了驰声科技的先进技术。

    作为此轮教育信息化浪潮的中坚力量,驰声科技将持续、专注地为国内外教育企业提供最专业、最完善、最优质的智能技术与服务,并致力于成为 世界一流的智能语音技术品牌服务商。

    (11)百度语音

    百度语音为开发者,提供业界优质、免费的语音技术服务。通过场景识别优化,为车载导航、智能家居等行业提供语音解决方案。融合依存句法分析、信息抽取、短文本分类等自然语言处理技术。

    垂直场景识别模型。在提供通用语音能力的同时,百度语音还提供针对特定垂直领域的语音听写模型。开发者可根据使用场景,自定义设置识别垂类模型。有音乐、视频、地图、游戏、电商共17个垂类领域可供选择。

    丰富的垂直资源。语义解析可以识别用户的意图并提取用户表述中的关键内容,从而帮助开发者理解用户需求,百度语音识别服务支持35个领域的语义解析,可进行多意图解析、具备强大的纠错能力,依托百度知道等社区产品上积累的强大知识库,更能够做到智能推理、“不言而明”。

    (12)灵云科技

    北京捷通华声科技股份有限公司成立于2000年10月,是一家专注于智能语音、智能图像、生物特征识别、智能语义等全方位人工智能技术研究与应用,全面发展人工智能云服务的高新技术企业。灵云平台隶属于北京捷通华声科技股份有限公司。

    2001年,捷通华声推出代表国内最高水平的中文语音合成技术,全面开启了中文语音合成技术在中国信息产业发展中的实用化进程,奠定了捷通华声在中国语音产业界的稳固地位。历经十年发展,捷通华声所拥有的自主知识产权的中文语音合成、手写识别技术在语音交互、模式识别技术市场占有率达到50%,成为国内第一家倡导并实现同时提供语音合成、语音识别、手写识别、文字识别等技术的全方位人工智能技术提供商。

    (13)轻生活科技

    深圳市轻生活科技有限公司由国家级高新技术企业深圳市超维实业有限公司100%投资,于2015年4月在深圳成立、注册资本1000万。

    轻生活科技聚焦研究语音交互控制技术和语音搜索技术,并整合WiFi、BLE、RF等先进的物联网技术、云服务技术、大数据技术等为智能家居行业提供短平快小生态技术解决方案;公司专注以前瞻智能语音技术(语音识别技术、语音合成技术、降噪、去回声等前端处理技术),致力于家居物联网智能语音交互技术软件与硬件的开发;为轻生活品牌提供完整产品,透过轻生活科技来整合优质的上游资源形成轻生活独有的产品方案,并通过自己的品牌产品来示范和检验并完善方案,从而更好的为轻生活开放性研发平台的客户、加盟方案友商服务。

    (14)阿里云(小Ai)

    智能语音交互(Intelligent Speech Interaction),是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、保险、司法、电商等多个领域均有应用案例。

    (15)搜狗语音

    搜狗从2012年开始研发智能语音技术,并在2013年开始进行深度学习。目前,搜狗的智能语音技术已经成功应用至搜狗的全线产品中。搜狗方面的数据显示,搜狗搜索日均语音搜索次数增长超过4倍,搜狗输入法日均输入超过1.4亿次。

    搜狗“知音”引擎解决了用户在说话过程中因语速过快而导致的吞音问题。语音识别错误率相对下降30%以上,语音识别速度提升3倍;“知音”能够在语音交互中支持用户修正错误的识别结果,用户可使用自然语言进行改错。比如,用户可以说把“张”改为“章”。

    此外,“知音”还支持多轮对话,处理更复杂的用户交互逻辑,用更自然并且用户更容易接受和理解的方式进行交互。

    3、科大VS云知声

    科大讯飞主要产品:

    (1)讯飞输入法:

    1)产品介绍::iOS 8上唯一支持语音输入的第三方输入法,专为iPhone用户打造,无需越狱,即可安装!用户评分最高的手机输入法,超过1亿用户使用,智能手机装机必备。讯飞输入法,创造极致输入体验!

    2)功能特色:

    a. 速度快:全新“蜂巢Ⅱ代”输入引擎,完美融合拼音、语音、手写输入,输入更智能;

    b. 输入准:内置百万超大词库,拼音云输入全面升级,准确率提升30%,速度翻倍;

    c. 更智能:支持语音、手写、拼音“云+端”输入自适应学习,使用越多,输入越方便!

    (1)灵犀:

    1)产品介绍:灵犀,中国移动和科大讯飞联合推出的智能语音助手,更是国内首款支持粤语的语音助手!灵犀既能语音打电话、发短信、查天气、搜航班,还能查话费、查流量、买彩票、订彩铃,更可以陪你语音闲聊讲笑话!

    2)功能特色:

    1.如果您想偷懒,灵犀MM可以帮你打电话、发短信、定闹钟,是您的贴身小秘书;

    2.如果您在路上,灵犀MM可以帮你查天气、查路线、查美食,是您的生活小导游;

    3.如果您爱娱乐,灵犀MM可以帮你听音乐、订彩铃、下应用,是您的娱乐小主播;

    4.如果您很无聊,灵犀MM可以陪你聊八卦、讲笑话、说新闻,是你的闲聊好朋友!

    (2)录音宝:

    1)产品介绍:录音宝是由科大讯飞推出的手机录音软件,界面清爽,高清音质,支持精准定位、听声识人,操作非常简单,让您方便录、容易听!

    2)功能特点:

    1.无限时长:随时随地,现场录音不限时长,想录多久录多久,保存完整记录;

    2.随时标记:录音过程中可随时标记,供您回听录音时精准定位,快速查找;

    3.听声识人:以不同颜色自动区分多人对话,谁在说话,一目了然;

    4.录音转文字:可将录音转换成文字显示,一键复制,方便整理;

    5.文件导出:录音及文字可轻松导出,方便存储及使用;

    6.一键分享:录音可分享至QQ、微信、朋友圈、微博等社交平台;

    7.通话录音:支持大部分安卓手机双模双卡双向通话录音。

    (4)讯飞语点小V(车载蓝牙硬件):

    1)产品介绍:作为科大讯飞重点打造的软硬件一体化产品,语点车载声控电话采用智能语音唤醒技术、高效的语音识别技术、流畅动听的语音合成技术,并结合先进的AEC(回声消除技术)和AES(噪声抑制技术),成就其卓越的通话音质。在行车过程中,全程采用语音操控的交互方式,无需触碰按钮即可拨打和接听电话;和手机连接后,自动同步通讯录,使用简单便捷,将为消费者带来前所未有的安全体验。

    2)功能特色:

    1、6个月超高续航时间,10小时长连续通话;

    2、具有语音播发短信,APP智能应用等多种功能,还有贴心的隐私保护设计,在有私密来电时,可一键切回手机通话。

    3、语点车载声控电话拥有蓝牙音频串流播放功能(A2DP),可智能播放手机音乐和导航指令,高清立体音质清晰悦耳,来电自动暂停,结束自动启动,为用户提供极致的娱乐体验。

    3)产品不足:

    1.不能主动中断通话,必须等对方挂断;

    2.对车载环境识别有待改进,当在车门外来电话时,因为蓝牙还连着,所以默认是由车内小V接听,需要手动把蓝牙关闭,才能转到手机上。

    3.喇叭声音较小,车内声音稍大一些,就听不到了;

    4.只支持绑定的手机号,对于有多个号码的用户来说,没绑定的号码只能用手机接听。

    5.目前的固件版本只支持普通话,不支持方言。

    云知声主要产品:

    (1)语音魔方解决方案:

    1)产品介绍:语音魔方是智能语音交互的整体解决方案,让智能设备听懂用户的话,用户说话就能实现操作和控制;方案适用于智能电视、智能家居、车载、可穿戴设备;方案整合语音识别、语义理解、知识图谱等云知声核心技术,经过数年专业语音交互的积淀和几代产品的更新,倾心打造。

    2)应用场景:车载环境、可穿戴设备、智能电视语音交互方案;

    (2)智能语音导航解决方案:

    1)IVR电话语音导航:通过将客户的自然语音进行转写和翻译,并通过基于自然语言的语义分析系统与企业IVR语音系统对接,为企业提供智能电话语音导航方案;用户只用轻松的说出想要的服务内容,就可以找到自助服务的入口,并完成自助服务。

    2)语音分析系统:语音分析系统将用户和坐席的连续通话录音转写成文字,通过事先建立的业务模型和业务规则对文本结果进行深入的数据挖掘。其中,可以对坐席的语音进行质检,保障业务的合规和完整性;对客户的语音可以进行大数据处理,了解客户的来电需求,挖掘用户潜在的商业机会。

    3)智能语音对话系统:该系统可以提供智能化的高级人机语音交互方案,通过对客户知识库系统的梳理,通过关键字匹配和建立对话模型等方式,最大限度的利用客户的知识库系统实现自助服务。该系统可以应用于智能客户领域,可以在网页客服,微信客户,电商客服中帮助降低成本,提高服务质量。

    4)手机语音导航系统:该系统基于公有云/私有云架构,为行业客户提供定制化的手机APP语音导航方案;通过智能语音导航改变传统的按键式自助服务,用户使用自然语音与系统交互,实现菜单扁平化,提升用户满意度,减轻人工服务压力,降低运营成本。

    (3)云知声语音输入法:

    1)产品介绍:云知声输入法是一款语音输入超准的手机输入法。让手机用户不再纠结于方寸键盘间频繁点选,用语音轻松输入文字。其语音识别反应快、识别准;针对噪音、口音、输入标点/数字、网络条件等进行了优化,让语音输入更有效、更实用。可实现在线和离线语音识别,并且能自由切换在线/离线引擎。来自云知声语音识别引擎的强大支持。你值得信赖!

    2)功能特色:

    1.语音识别准:平均准确率超过93%;

    2.识别反应快:Wi-Fi或3G下几乎实时返回识别结果;

    3.语音输入快:每分钟轻松输入200-300字,非语音输入方式望尘莫及;

    4.不怕有口音:完美识别标准普通话及有口音的普通话;

    5.语音输入数字:可识别数字并输出适合的格式;

    6.抗噪声技术:在吵杂街道环境也可以顺畅输入;

    7.超省流量:输入100字只需要20-40kB流量,1M流量可输入2500字;

    8.自动加标点:智能引擎根据用户输入内容为用户添加必要的标点符号。

    (4)语控精灵

    1)产品介绍:

    语控精灵是由北京云知声信息技术有限公司研发的一款语音软件。无需连接网络,通过语音即可操作手机功能,打电话给朋友,发短信给朋友,打开应用,开关手机功能。打电话、发短信、开应用随你语控;让手机随时随地听懂你。

    2)功能特色:

    1 .通过点击桌面悬浮窗来快速启动语控操作;

    2 .通过贴近耳朵(需要有陀螺仪硬件支持,摇一摇快捷启动语控操作;

    3 .通过语音播报可以彻底释放手眼操作,提高操作安全性;

    4 .在联网状态下,可以通过语音输入短信内容,而且所占流量极小;

    5 .支持语言:普通话

    十一、总结

    语音识别早已经渗透入我们的平常生活中,作为未来交互入口的第一道门槛,要突破的难点还有很多很多,除了一些技术方面的突破点,在产品和用户心智方面也仍需时代的引领。

    1、场景承载点:

    目前近场语音识别场景的识别准确率已经很高了,而且语音识别作为技术已经有了一个明星的产品承载点,那就是讯飞语音输入法。但是面临挑战的恰恰不是产品的语音识别准确率不够高,而是没有一个用户可信赖且相对信息隐秘化的场景承载点。

    用户使用手机和电脑的时间,大部分人的80%的时间都是在非私人化的时间里,无论是上班族还是学生,大多处在一个至少是2人或是2人以上的空间场景中,因此要使用语音识别,必须要发出声音才能进行交互的一些场景,大家不愿意使用更高效的语音交互,而是仍然选择用手来交互,因此对于一门技术缺乏场景承载点,是一个及其尴尬的局面,这极大的阻碍了新技术的普及;而未来的语音交互场景则更多的是依赖于私人的熟人场景下(家庭,私家车等);这些场景可能更多的也是工具式交互,至于情感类的交互估计没有多少空间(除了老人和孩子)。

    场景优化展望:上面提到的问题,其实仍然属于信息的隐秘化问题,公共场合下大家在进行语音沟通时,信息是开放的,周围人是可以获取到你交互的私密信息。但是如果有一个小小的硬件可以戴在喉结处,在不发声或者是很小的声音下,我们通过硬件发大处理收集音波信息和振动信息,结合处理是否可能达到一个静态的只有一个人能听到的语音识别从而进行语音交互,这样就可以解决信息泄露带来的场景尴尬。

    2、图像的信息反馈优于音频信息的反馈

    我们人类的主要信息获取方式,80%来自于眼睛,也就是说图像信息的丰富度远胜于声音,这也就决定了,任何离开了图像的信息交互都是不可取的,也是不能大行其道的,瞎子比聋子更让人不能接受。因此未来依托于语音识别的语音交互的同时一定不能少了图像的交互,除非两者不可同时共存(现阶段的车载场景不可共存,但未来无人驾驶解放人类的眼睛之后,仍然离不开图像交互)。未来图片、文字是否还有其他的呈现载体,而不仅仅依托于手机、电脑,眼镜是否也可以呢,当然还得继续摸索。

    参考文章链接如下:

    https://www.jianshu.com/p/8041e1f4fdf3

    https://www.jianshu.com/p/a3e2915a3783

    https://www.jianshu.com/p/1cfa15eaadfe

    https://www.jianshu.com/p/2c99885b9a8f

    https://www.jianshu.com/p/60ef7117a612

    https://www.zhihu.com/search?type=content&q=%E8%AF%AD%E9%9F%B3%E6%BF%80%E6%B4%BB%E6%A3%80%E6%B5%8B%E7%9A%84%E9%9A%BE%E7%82%B9

    https://www.jianshu.com/p/350a4f447a5f

    https://www.jianshu.com/p/c088c89a7f09

    https://www.jianshu.com/p/45a764b53474

    https://www.jianshu.com/p/7c94467f58ff

    http://www.woshipm.com/pd/894645.html

    https://www.jianshu.com/p/dc8954aebbef

    https://www.jianshu.com/p/3edca44c3e53

    https://blog.csdn.net/zhinengxuexi/article/details/89355659

    https://blog.csdn.net/baidu_31437863/article/details/82807224

    https://zhuanlan.zhihu.com/p/43279047

    相关文章

      网友评论

        本文标题:语音识别长篇研究(五)

        本文链接:https://www.haomeiwen.com/subject/smauxhtx.html