前一阵从淼哥那里知道了讯飞听见,就是上传一段音频,选择机器转录,可以很快时间内转录成文字,准确率可达95%。人工转录的准确率大概在98%,也就是说机器转录只比人工差一点点,但是速度快了好多倍,成本也低了好多倍。
因为我做过好多年字幕,曾经接过一个商业活就是为中文讲座配字幕,但是文字都要自己去听打。一个不到两小时的讲座,作为一个打字还算快,打轴也算熟练的人,我满负荷状态做了两天才做完。(我就不说给多少钱了,年轻的时候对时间真是没概念哎。)
而放到现在,可以直接丢去讯飞平台转录,不到半小时可以下载字幕,然后做一点校对,据我估计可以在3小时之内完成工作。科技对行业的影响就是这么大。
而就在前几天,我知道原来在遥远的美利坚也有类似的平台——AcousDoc,似乎是来自Standford的华人学生做的,可以理解为英语版的讯飞听见。
那么这个有什么用呢?作为一个做了多年美剧字幕的人,知道字幕组要翻译一个剧,有一样东西是必不可少的,那就是英文字幕。英文字幕一般都是从美国电视台录下来的。如果一个剧没有英文字幕,那么听译难度会成倍上升,除非有一帮狂热的人特别想做,否则一般不会去翻译。
而这个东西的出现,意味着可以靠机器生成一个片子的字幕,并且准确率很高,这就直接解决了一个极大的痛点。之前有个NASA的听译任务,因为没有字幕,几乎没有人报名。用这个平台生成了字幕之后,总群里面一发,翻译当晚报满。
科技改变生活。
一阵激动之余,在知乎搜了一下相关内容,发现这样一篇回答(为什么 Deep Learning 最先在语音识别和图像处理领域取得突破? ),大概是说30年前学者就建立了深度学习的模型,但是直到近年来机器处理速度大幅提升,互联网资讯大量增长,让机器能够足够快的学习足够多的材料,才使得语音识别准确率取得突破。
看完对学者致以崇高的敬意。一个研究成果可以在30年后时机成熟的时候释放巨大的能量。在我的人生观当中,来世界一遭,也应该留下这样的成果。我还记得曾经看过霍金讲宇宙的纪录片,其中提到地球在几十亿年后是会毁灭的,所以人类需要一直探索外太空。但是可能出现合适的居住地的地方,不是人类寿命的时间能到达的。那么就有两个可能,一是生物技术的发展,使得人类能够活到到达能够移居的星球。另一个是通过人工智能的发展,让机器人代替人类探索宇宙。
从这方面来看,人工智能将是数十亿年后人类文明得以延续的关键。
大学时候虽然读的是数学系,但是并没有学好数学。在我第一个100天计划中,就包含了微积分的学习,要把落下的东西补回来。之前并没有想过为什么要补数学,只是觉得有必要。今天这么一看更明确了,如果以后要做人工智能方面的研究,那么数学的底子是必不可少的。
嗯,就是这样。
网友评论