BasicCAT是一款开源跨平台的计算机辅助翻译软件,无论是架构还是界面都大量借鉴了雪人,可以说继承了雪人的主要优点。
1.轻量级,界面简洁
2.支持多种格式的原文导入和译文对比导出
(多数格式会被认为是有标签的文本,需要预处理为xliff文件)
3.支持Tab分割的.txt文件作为记忆库和术语库导入
4.人性化的在线词典嵌入和机翻API结果对比
其开发者是pku软微学院在读,本科英专的Xu Lihang许同学。
他的博客:http://blog.xulihang.me/
内有开发BasicCAT的心得,包括对该项目功能设计的思考反思,
同时有纯技术方面的经验总结。
下载链接
http://www.basiccat.org/zh/download/
中文使用手册:
https://docs.basiccat.org/zh_CN/latest/
特色功能:调用Stanford CoreNLP实现译文自动补全
Stanford CoreNLP官网:
https://stanfordnlp.github.io/CoreNLP/index.html
备用下载链接:https://pan.baidu.com/s/1LNW4IDw8Viz6RURmzqxI9Q#list/path=%2F
链接中包含corenlp和中文模型。
基本原理:
利用coreNLP将多个机翻接口的结果打碎成短语,并匹配相应的原文中的短语。
目的是将双语平行句对转化成双语平行短语对,即短语对齐。这样往往不能整句原样采用的机翻结果在短语层面上仍有借鉴意义。尤其是多个API的翻译结果可以为人类译者提供多种选项,实现互补。
当译员输入一两个匹配的字符时,系统会自动推荐刚才切割好的机翻短语片段,可能不止一个。译员只需从中挑选出合适的。
思考:为什么不从记忆库中搜索对应的短语级模板?
我想答案至少有三:
1.语境的信息越多,短语在context中的意思越固定。
反之,短语,尤其是两三个词的短语,其意义往往在不同语境下有异。
那么我们从记忆库中抽取的对应意思就可能不可用。
(而且代价巨大,词/短语对齐的效率要比单纯的搜索低很多!)
若短语确实意思有变化,耗费的时间会是徒劳。
2.短语级的翻译模板应该预先被建立,而不能从句级记忆库中现用现抽取。
短语对齐效率极低,且每次原文中出现该短语都要重新从记忆库中搜索,匹配,再检验是否几乎意思唯一。
(检验:比如95%以上的情况下该短语有相同的汉语对应)
最终目的是建立一个拥有固定翻译的常用短语模板语料库。
它扮演的角色介于术语库和记忆库之间--词以上句以下。
术语库之所以好用,是因为专业术语的翻译和语境无关,其本身也无屈折变化;
记忆库好用在于语境充分,一句话因为结合上下句而改变意思是相对罕见的,但对词和短语却屡见不鲜。
因此在翻译时我们几乎可以原封不动地使用匹配的句子或术语,如若需要修改,就有些鸡肋。
3.从效率上讲,处理不同机翻API的几条结果比从整个记忆库中搜索快的多。
句子机翻打碎成短语对齐的另一个好处是机翻结果本身包含了语境信息,虽然样本小,只对比几个API,但大方向是正确的,也更高效。况且对于意思不固定的短语,机器在考虑语境后也许可以确定此处的翻译。
但尴尬之处在于,即便全句完美翻译,仍需要人力校对。完美匹配的记忆库是不怎么需要怀疑准确性的。对一句不太难的话来讲,校对订正的功夫已经独立译完了。
网友评论