转自:翻译技术教育与研究
作者:王海力
一、语音识别与机器翻译
近些年,随着信息传播技术和网络视频平台的迅速发展,多语种和跨语言的音视频资源数量激增,极大改变了信息传播的速度和方式。于是,对视频双语字幕生成技术(以下简称“双语字幕技术”)的需求日益上升,该项技术可以为视频制作者和视频平台提供便利。
双语字幕的生成主要依靠两门技术作为支持:一是语音识别技术,用来准确识别并转录视频中的音频内容;二是机器翻译技术,用来在完成音频识别和转录后将文字自动译为目的语。
语音识别技术,又称“自动语音识别”(Automatic Speech Recognition, ASR),是口译软件和字幕生成的第一个环节,通过分析声学特征、构建声学模型和对声音信号进行解码,让机器可以“听懂”人的语言,并将语言转换为文本。
语音识别技术于上世纪50年代正式开始研究工作,发展到80年代的隐马尔可夫模型(HMM)模型和人工神经网络,再到90年代计算机技术和电信应用等领域的飞速发展,逐步从实验室走向应用,到如今国内外各大信息技术公司都拥有自家的计算机语音识别系统。
机器翻译是文字翻译应用、口译应用、视频字幕生成技术等应用和技术实现语言转换的关键,它可以克服人工翻译成本高、效率低等缺陷,有效满足了日趋频繁的国际交流对于翻译的需求。上世纪中后期,围绕机器翻译的研究和应用逐步展开,至今仍然是人工智能领域最具有挑战的课题之一。
随着口译的需求日益上升,语音识别技术的发展对于进一步拓展机器翻译的应用至关重要。
二、对比分析
1.实验设计
本研究选取了两个应用作为实验对象,一个是讯飞听见字幕线上平台,另一个是人人译视界APP,通过为同一段视频生成双语字幕以对比二者的字幕效果。
本测试主要关注翻译结果的准确度和可接受度,当然也对语音识别的准确度进行了鉴别,最终对双语字幕的总体满意度进行评价,以及浅析未来的发展方向。
本次测试选取的视频是习近平总书记于2019年12月31日发表的2020年新年贺词。选取这一材料的主要原因有二:一是该视频的音质清晰、语言简洁,对于语音识别而言没有过多干扰,同时比较考验机器翻译的准确度和可接受度;二是因为习近平总书记的年度贺词属于向外推广的重要外宣产品之一,中国日报网(China Daily)每年也会为新年贺词提供中英双语版,从而使得本次实验有了官方参考。
2.结果与分析
2.1 应用的优势
总体上看,讯飞听见字幕和人人译视界APP都具有成本低、速度快和语音识别准确的特点。在对这段十五分钟的视频生成字幕的过程中,两个应用平均花费10元左右,并且都在半个小时内产出了字幕。通过和中国日报网提供的中文发言稿对比,发现中文字幕并没有出现错误,可见两个应用所应用的语音识别技术完全可以准确识别音频内容并进行文字转录。
同时,讯飞听见字幕和人人译视界也各有独特优势。
讯飞听见字幕作为线上平台,页面设计十分简洁,并为各项操作和功能提供了明确的向导,方便用户快速上手。此外,讯飞听见字幕还为用户提供了直接编辑字幕的功能,方便用户将字幕修订完之后再产出视频。
相比之下,人人译视界APP的功能更加多元化,甚至包括“团队编辑”功能,当然APP的界面也因此更加复杂。在翻译速度上,人人译视界无论是上传视频还是生成字幕的速度都比讯飞听见字幕更快。
2.2 英语字幕的不足
本研究重点关注的是最终生成的英文字幕的问题,因此就不对两个应用界面设计、功能等方面做过多评判。
从语音识别和机器翻译的角度来看,生成双语字幕这一过程不仅需要将语音符号转录为文字,还需要自动识别文字内容,对文字进行分句、分段后再完成机器翻译。虽然两个应用都基本准确地识别并转录了视频中的语音内容,但在判断文字的意思和翻译策略的选择上存在明显不足,导致英文字幕和人工翻译相差甚远,最多称之为“勉强可以理解”的英文。基于本研究所进行的实验,初步得出以下三点结论:
2.2.1 对于修辞的翻译多停留在表层结构和意思
从本次实验结果来看,讯飞听见字幕和人人译视界APP所生成的英文字幕不仅存在可读性不高、流畅度较低的问题,还需提高最基本的准确性。两个应用不能做到完整理解中文语义,更不必说正确理解汉语中常出现的修辞手法。即便本次实验选取的视频并不涉及过多文学语言或者相对随意的口头语言,但是从生成的英文字幕可以看出,译文的句式和结构十分生硬,基本是对字词和语句的直接翻译。
例1:2019年,我们用汗水浇灌收获,以实干笃定前行
讯飞译:In 2019, we will water the harvest with sweat, work hard, be determinedand move forward
人人译:In 2019, we watered the harvest with sweat, with practical work,determined to move forward
ChinaDaily:In 2019, we sweated and we toiled as we pressed ahead with concreteefforts for achievements.
通过对比可以看出,机器生成的英文字幕基本停留在表层结构。对于“用汗水浇灌收获”,两个应用都选择了直接翻译,这从英文的角度来看是完全不可读的。虽然受限于字幕的字数限制,机器或人工生成的英文字幕都不可以像China Daily提供的译文一样译成长句,但是“water the harvestwith sweat”无论如何是不可接受的(当然,也并非所有隐喻都被错译)。除此之外,可以看到人人译视界APP也没能识别中文的排比结构,将“以实干”单独译成一句“,withpractical work,”放在句中,这割裂了原本的语义,破碎的句式也导致英文字幕观看体验较差。
例2:全国将有340个左右贫困县摘帽、1000多万人实现脱贫。
讯飞译:About 340 poverty-stricken counties will be lifted out of poverty, and more than 10 million people will be lifted out of poverty.
人人译:There will be about 340 poverty-stricken counties across the country to remove their hats, more than 10 million people have been lifted out ofpoverty.
ChinaDaily:About 340 impoverished counties and more than 10 million people have been lifted out of poverty.
从例2中可以看到,讯飞听见字幕将“摘帽”准确译为“lifted out of poverty”,这也是China Daily给出的官方译法,本研究认为这是因为“摘帽”一词完整存在于讯飞听见字幕的语料库中。虽然前后两个句子中反复出现“lifted out of poverty”导致句子读起来有些不适,但是作为字幕,前后两个半句本来也会分开显示,所以也不会过分影响观看体验。反观人人译视界给出的译文,“摘帽”被生硬地译作“remove their hats”,这也是例1中出现的翻译问题。
2.2.2 语料库中缺乏专有名词
名词性短语是中国政治性文本的特色之一,其中经常出现的就是中国政治语境下创造的专有名词,例如“改革开放”、“三大攻坚战”、“新时代长征路”等。这些概念对于中国人民而言都很好理解,但如果逐字译作英文,且不谈英文读者不一定了解其深层内涵,这样的译文本身也不符合官方译法。其中,重要概念有固定译法且会在一段时间内反复出现,所以对于人工翻译而言,所以部分概念的译文大多已经储存进语料库中,或者联网可以轻松查到平行译文。在两版译文中可以看到,两个应用可以将“京津冀协同发展”准确译作“Beijing-Tianjin-Hebei coordinated development”,也可以将“神州大地”正确转换为“land of China”,但同时也出现了多处错译和不准确的翻译。
例3:嫦娥四号在人类历史上第一次登陆月球背面…
讯飞译:Chang'e 4 landed on the moon for the first time in human history. Back side
人人译:Chang'e 4 landing on the back of the moon for the first time in human history.
ChinaDaily:Our lunar probe Chang’e-4, for the first time in human history, landed on the far side of the moon.
由例3可以看到,两个应用的语料库都存在一定漏洞,无法识别“嫦娥四号”是我国重要的月球探测器,因此只能译作“Chang’e 4”。而如果不像China Daily译文一样进行增译,补充出“lunar polar”的概念,英文观众可能无法明白“Chang’e 4”指代的是什么。类似的问题还出现于“雪龙2号”、“长征五号”等概念的翻译中。为了更好完成语言之间的转换,机器翻译还需要一定语境下的常识、背景知识、专业知识等作为辅助,这样产出的译文才是真正可读的、准确的。
2.2.3 对于时态的判断不准确
在英文中,动词的形式会根据时态变换,而中文的动词往往不会根据时态而变化,多以“了”、“会”、“将”等字眼提示动作发生的时间。于是,可以看到本研究的两个应用在判断中文时态的过程中出现严重错误。就习近平总书记2020新年贺词这段视频而言,中国观众都会默认内容中谈及的动作和过程都是过去完成的,因此译作英文字幕的话应该以过去时和过去完成时为主。
然而从上方的例1、例2可以看到,讯飞听见字幕将时态都译作了将来时,这就可能导致英文观众将我国在2019年间取得的成就理解为2020年期待实现的目标。这样的问题很有可能损害我国对外宣传的效果。
而在例2中,甚至看到人人译视界APP将紧邻的两句分别译作将来时和过去完成时,这毫无疑问会破环观众的观看体验。当然,错误的时态使用远不止这两个例子,而是穿插在每一句英文字幕之中。所以,尽管两个应用的英语字幕都基本做到了完整保留了内容和信息,但是错误和混乱的时态使用严重影响了字幕的观看体验。
2.3 总结和预测
针对英文字幕中出现的不足,本研究将主要问题概括为上述三个方面:对于修辞的翻译基本停留在文字表面、语料库中缺乏专有名词、对于时态的判断不准确。此外,译文当然还存在很多其他问题,包括特殊字符的处理不好、无法识别语气、断句和语义划分存在缺陷等。
虽然我们目前不期待视频双语字幕生成技术可以像人工转录和翻译一样先准确理解语义后再进行翻译,并在翻译过程中采取搜索官方译文、补充信息、保留意境等翻译策略。
因此,基于本研究的结论和分析,本文对未来发展提出以下两点预测:
2.3.1 更精准的语义消歧
有效应对语言的多样性、深化机器对语义的理解是机器翻译领域长期以来的难点。未来,在这一方面最可能的突破点是“扩大处理范围,在更大的语境内进行理解式翻译”,即大语境范围内的词义消歧技术。20世纪以来,机器翻译的转换基础和加工单位已从单词、句子提升到了句段。根据英文字幕中出现的问题,本研究认为进一步扩大语境范围会是消歧的方式,也就是接下来机器翻译要学会从语篇的角度理解语义。
2.3.2 知识获取和即时更新
除了语言层面的翻译问题,不能精准地翻译专有名词也是本研究发现的重点问题之一。知识获取作为机器翻译的技术瓶颈之一,未来机器学习、知识发现及双语语料加工等技术将成为研究重点。一方面,通过机器学习,计算机将基于人工修订后的结果学到更精准的词汇表达、学习人类的语言习惯,优化未来的翻译能力;另一方面,计算机也会对人工翻译进行追踪,帮助译者避免低级错误。因此,我们应该可以期待未来的机器翻译可以接入更大的语料库,甚至直接联网,精准定位专有名词的官方译文。
三、结语
本文的研究重点是机器翻译过程中出现的问题,通过比对分析得出结论:虽然视频双语字幕生成技术毫无疑问方便了人们的生活,一定程度上满足了跨文化、跨语言交流的需要,然而其自身的短板难以忽略,产出的英文字幕勉强可以称为可以理解的英文,但远远算不上准确、通顺。我们期待在未来,视频双语字幕生成技术可以更合理地改进,不仅是为方便各国人民认识他国文化,更是为国际交流架构起更加稳固的桥梁。
作者:王海力
排版:李斯然
审校:李斯然
转载编辑:陈雨
关注VX公众号“语言服务行业”,了解更多语言服务行业与翻译技术相关的资讯和洞察~
网友评论