译文:统计机器翻译教程——前言

作者: 卢瑞 | 来源:发表于2018-09-02 20:19 被阅读20次

    一、统计机器翻译是什么?

    你马上要阅读的这篇文章,正是一篇原本用英文写的文章的中文翻译。当然,是我手动将英文翻译成中文的。这个过程不算轻松:首先我要熟悉英文(还好我提前掌握了),然后我要熟悉中文(我当然也提前掌握了),我要理解英语原文的含义,再用中文写出来,最后进行校对(人做事情总是很容易出错)。如果,我们能够把这个任务交给计算机程序,那会是多少幸福的事情。

    事实上,早在上个世纪三四十年代,人们就开始研究机器翻译。但在统计机器翻译(Statistical Machine Translation,或简写为 SMT)出现之前,实现一个机器翻译程序要么需要大量的人工干预,要么实际效果很糟糕。比如,有的单纯地进行逐字翻译,有的需要手动配置大量的翻译规则,有的需要编写复杂的算法去分析不同语言的句法结构,有的尝试建立一种“中间”语言,来对任意的人类语言进行相互转换。这些尝试是伟大的,但人们并不满足于此。

    粗暴地解释一下统计机器翻译:“你让我翻译个句子?那我先看看人们之前都翻译过哪些类似的句子(语料库的存在使这个成为了可能),我直接用这些现成的句子,做一些调整,新的句子就翻译出来了!”。基于这样的逻辑,无需大量的人工干预,通过操作已存在的句子翻译语料,即可实现一个翻译程序。毕竟,人们总是基于当时的实际问题(大量的人工干预)去发展新的技术。并且,翻译出来的结果,相比之前的机器翻译程序,也有很大的提升。

    事实上,目前大量正在被使用的翻译程序依旧部分或全部地基于统计机器翻译。比如,这篇文章 对谷歌翻译中的统计机器翻译运用进行了简短的介绍。所以,学习统计机器翻译有实际的价值。当然,技术总是在不断更新,近几年已有不同方向的新的翻译技术出现(神经网络机器翻译——Neural Machine Translation,NMT)。但从学习的角度看,在对数学和其他领域知识的运用,将实际问题抽象成可操作的模型,如何建立分析解决问题的思维等方面,统计机器翻译都是很不错的参考。

    二、为什么要翻译 A Statistical MT Tutorial Workbook 这本手册?

    要找关于统计机器翻译的实际应用,开源项目、新的技术突破等方面的文章资源是相对容易的。但要想从零开始了解统计机器翻译最基本的实现原理,理解各个部分为什么要这样实现,新的发展是基于哪些困难。对于这些问题,却很难找到一篇通俗易懂的文章(或者说,中文文章)。

    Kevin Knight 于 1999年 完成的文章 A Statistical MT Tutorial Workbook (称它为手册可能更合适)算是比较不错的回答了上面的问题。对于读者来说,不用额外的知识储备(文中会用到一些数学知识,但别担心,你可以读懂),就可以基本懂得统计机器翻译的绝大多数内容。同时,作者 Kevin Knight 的文笔幽默直白,用大量浅显易懂的例子去解释其中的逻辑推理使得整个阅读过程十分轻松愉快。

    不得不说的是,阅读英语文章是比较辛苦的(可能是我还需要多多练习),一不小心就会走神:“我看到哪了?”,“我刚刚看了什么?”。于是,突发奇想,为什么不边看边翻译成中文?一方面让自己专心起来,有动力看下去,另一方面,也想把这本优秀的手册推荐给对统计机器翻译感兴趣的你。

    三、通过本文,你会学到什么?不会学到什么?

    你会学到

    1. 统计机器翻译是如何利用条件概率、贝叶斯公式、N-gram 语言模型 和 EM 算法等知识一步步从想法到实现的。
    2. 统计机器翻译由哪些核心部分组成,每个部分的作用以及是如何联系在一起的。比如,一个模型由生成理论 + 参数构成,语言模型 + 翻译模型是统计机器翻译的主要模块。
    3. 统计机器翻译中的绝大多数核心概念,比如经典的 IBM Model 1-5(本文实际上只介绍了前三种),n,t,d 和 p 参数,词对齐等等。
    4. 为进一步学习统计机器翻译,建立一个不错的基础。

    你不会学到(但读完本文后,你可以继续通过其他资源学习,在 本译文的结束语 里,我提供了一些拓展阅读的资源)

    1. 统计机器翻译各个部分的所有细节。
    2. 如何用编程语言实现一个完整的统计机器翻译程序。(如果你很厉害,应该也可以做到!)
    3. 统计机器翻译所经历的所有优化和发展。(比如后来基于短语的做法成为了主流,而不是一开始的基于单词)

    尽管中文读起来更轻松一些,但我强烈建议你 阅读 Kevin Knight 的英语原文 ,因为译文总是无法将原文的含义 100% 呈现出来。(我希望以后的机器翻译程序可以做到!)

    ....
    好吧,如果你坚持的话,这里是 第一部分正文

    相关文章

      网友评论

        本文标题:译文:统计机器翻译教程——前言

        本文链接:https://www.haomeiwen.com/subject/mltvwftx.html