什么是语音输入?
广义上来讲有三种:
第一层,一种信息存储方式,将声音保存为数字文件。
第二层,一种输入法,以近期大热的讯飞输入法为代表,将语音转换为文字。
第三层,一种交互方式,以 Siri、Cortana 以及 Google Assistant 为代表。代替点按屏幕、敲击键盘的传统交互,直接用语音对智能设备发出指令,完成某个事件,比如打电话、叫外卖、查地图等等。
第一层的技术早已成熟,第三层目前看来远未达到大规模、广泛使用的阶段。因此,这篇文章只探讨语音输入第二层——作为一种输入法——的语音转文字使用场景。语音技术做的最好的是讯飞,目前有两款 app:讯飞输入法和讯飞语记。无论是识别速度还是准确度,都远超同行。我分别体验了讯飞(输入法+语记)和搜狗输入法,粗略估计讯飞比搜狗快一倍以上。因此,从本质上来说,语音输入更多的是技术驱动型产品。
下面是语音输入使用场景的推理与归纳。
从使用场合看
不同于传统的交互方式——点触屏幕、键盘输入——语音输入对使用场合存在更多的限制。考虑到说话会打扰他人,同时也需要周围保持安静,因此对环境有较高的要求。使用场合大致可以分为:家、公司、上下班(公交车、地铁、私家汽车)、休闲娱乐场所(咖啡厅、餐厅、电影院)以及专业场合(会议大厅、专业论坛现场)等。
从使用用户看
语音输入有着极其广泛的用户群,对用户的唯一要求就是会讲普通话。即便如此,我们还是可以对用户群做粗略的分类。
核心用户:有着大量文本输入的需求。一类是写作者,比如在家进行写作;另一类是速记员,比如在会议、论坛上进行演讲稿整理。
普通用户:日常 IM 沟通。比如在家里、在上下班途中,使用微信与好友聊天,使用语音输入转文字来代替文本输入。
从使用诉求看
对于核心用户来说,对于语音输入有着强烈的需求,毕竟键盘输入无论怎样,都赶不上语音输入快。
对于普通用户来讲,可以发送文本消息、语音消息,但是语音形式对消息接收者极不友好(尤其是在群聊中)。普通用户为了提高自己的「打字效率」、节省时间,因此会选择语音输入。
不足与限制
语音输入有着与生俱来的限制,核心是两点:对周围环境要求较高、用户尚未养成语音输入的习惯。
对周围环境要求较高:一是不能打扰他人,二是周围环境的声音不能影响语音识别效果,三是如果在公共场合,如果聊天涉及到隐私内容,显然会对用户使用语音输入造成一定程度上的心理阻碍,也就进一步限制了使用场景。
用户尚未养成语音输入的习惯:如果不是事先准备好的发言稿,人们在说话的时候会带上很多的口头语,如「嗯」、「啊」、「然后」等。直接转换成文字,无论是日常聊天,还是专业性的文本输入,都显然不合适。如果语音输入不能对文本进行一定的预处理,就会在后期提高二次修改处理的成本。
小结
通过以上的使用场景推理,可以发现语音输入最适合的场景还是大量文本输入。对于普通用户而言,如果不能在产品设计上突破创新,发掘更多的使用场景,那就只能成为一时爆红的现象级产品。
网友评论