以下文章来源于机器翻译观察 ,作者Andy Nikulin
如何正确做译前编辑,让机器翻译质量更靠谱?
都2020年了,机器翻译质量不错了。机器翻译目前已经被公司、学生、出版社、翻译服务提供商广泛使用,还包括希望在社交媒体上读懂你帖子的外国朋友们。然后他们开始给你点赞——因为他们看明白了!机器翻译确实取得了长足的进步。
多年来,我们一直在评估机器翻译引擎的性能,相信我们,我们已经见过太多。这篇文章总结了我们的经历(有的是有趣的,有的令人好奇或痛苦的),我们只有一个目的:帮助你最大限度地用好机器翻译,当然还有,避免尴尬。
在本文中,我们关注的是通用(并且是公开可用)机器翻译系统,因为定制模型可以在您的数据样本上训练,以更好地处理您的文本风格的细节,而通用模型则用于处理各类文本。
听起来不错?让我们仔细道来:
1. 使用正式的写作风格。
删除或替换以下内容可能是一个好主意:
俚语[例如,Wooot,Buddy或Dude]
借词和新词[例如,大奖赛,电动车]
习语和专业术语[例如,打破僵局="开始对话"]
在源语言方言中有不同含义的歧义词和单词,例如:
a)以-ed或-ing结尾的单词
b)"table"一词因为上下文不同,可指一件家具或表格清单
c)"glass"一词可指材料或餐具等。
基于当地诙谐说法、习俗、谚语和偏见的短语
专业缩写词[例如,在法语中,日常交流中使用了很多缩写:bjr=bonjour,bz=bisous,bises .等]
使用基于常识的短语[例如,地球是一颗行星]
2. 使用简化的句子结构。
保证句子逻辑一致和完整。
不要用太多带有从属从句的复杂句子。
如果可以的话,避免被动时态。
必要时把复杂句子分开。
3. 统一术语。
例如,不要同时使用“client”和“customer”来描述“用户”,而是坚持用同一个词。
4. 检查正字法、标点符号和错误拼写。
错误的单词可能会被误译——“void gaps”不是“avoid gaps”,这完全改变了句子的含义。有一次,我们的软件因为一个机器翻译的错误单词“assked”,不得不暂停使用。
5. 统一格式:
价格和货币[例如,1.000美元]
测量单位[例如,千克]
数字[尽量用数字代替数字,例如,用“1”代替“one”]
日期和时间[例如,2020-08-12,14:45]
所有其他可统一的特定数据和术语
6. 尽可能多地使用低语域。
避免不必要的大写[例如,使用"counterparty"而不是"Counterparty"]
解除大写锁定[例如,“HERO”一词可以不翻译]
7. 留意邮件,文件路径,网址。
例如,电子邮件地址"daisy@garden.to"可能被机器翻译为flower@yard,这可能不是用户想要的。
8. 使用专门术语的词汇表。
添加网址[物理位置]/地址[例如,"Language Street"可翻译成"[目标语言直译语言+街道]
添加产品和服务名称[例如,翻译后的产品名称可能和您公司产品名称指南有出入]
在词汇表中增加名称和缩略语[例如,缩略语"WORLD"可能被翻译成"world"]
9. 采用统一的方式翻译地名。
对于翻译像La Grand-Place这样的地名,可以选择保留源语言的名字。
在翻译文本中保留原语中的外语词时,遵循语法规则。例如,如果你需要在翻译的英语文本中使用一些原生的法语单词,要遵循英语语法规则。
10. 最后,当你发送翻译请求以获得更好的机翻结果时,确保指定好:
源文本语言。如果未指定源文本语言,自动语种检测会启动。语种检测不仅需要时间,而且在某些情况下也可能提供错误的(不是字面上的错误,而是意想不到的)结果,例如,Kungens Kurva是斯德哥尔摩一条街道的名字(顺便说一句,这是瑞典语中的King's Curve)。但是,如果你没有指定源语言,它可能会被自动检测成克罗地亚语,甚至波兰语。自然,翻译结果将会和原义大相径庭。
源文本格式。如果将格式指定为TEXT,您会得到一个纯文本。当指定HTML时,准备好处理翻译结果中的HTML对象,例如,如果您将“Jag är mammas son”从瑞典语翻译成英语,使用HTML格式,您可能会得到“I'm my mother's son”这样的翻译结果。
翻译标记文本时,坚持用标准的HTML标签,因为一些机翻引擎将非标准标签视为断句标记。试着把“She rose and left”翻译成法语。你可能会得到“Elle Rose et la gauche”的结果,而不是“Elle s’est levée et est partie”这样的正确译法。
如果你已经留意了以上技巧,你可能会对结果感到满意。然而,如果你觉得你需要从你的文本中提取一些重要的部分,来保证机器翻译结果靠谱,这里有一个窍门:把它们摘出来再翻译,然后把它们粘贴回去,就像在已经很不错翻译文本上再撒上一些配料。
祝你好运,翻译愉快!
本文原载于blog.inten.to,原题为《10 Ways to Optimize Text for Machine Translation》,中文由公众号@机器翻译观察翻译并发布。点击阅读原文可阅读英文原文。
关注微信公众号“语言服务行业”,了解更多语言服务行业与翻译技术相关的资讯和洞察~
网友评论