术语库的建立

作者: jeffbourbaki | 来源:发表于2018-10-29 21:04 被阅读0次

术语库的建立
MongoDB入门学习2 - 常用命令
mysql(1)用户设置
Mongodb基本语法
mongodb数据shell脚本
1.1 数据库简介
[安全]撞库
数据库术语
语料库与术语库
第二次课SQL

术语库的建立

中英平行语料源
语料处理：从raw data到术语库的建立

中英平行语料库源

经摸索，大致这么几条：

1 . 付费

tmxmall等在线CAT网站和淘宝、论坛上个体的翻译工作者构成卖家中的两类。
由于竞争不充分，信息壁垒大量存在等因素，同领域单位数量句对的价格差异可谓巨大。质量难保证，文档形式难保护版权是现有问题。

2 . 选用NLP公开数据集

先推荐一个公开数据集的检索引擎：

http://toolbox.google.com/datasetsearch

它由谷歌9月份推出，用于搜索ML训练集。NLP问题常需大量语料做支持，故可能能从中找到需要的。尤其是数据作为学术研究或竞赛之用，必经过了筛查和清洗，更不易出现质量难保证的问题。

不幸的是，英语世界中英平行语料资源稀有。google dataset search链接从kaggle等大型ML竞赛到各色专业研究组织，中英平行语料却搜不到。

国内的AI竞赛帮助我们寻找优质语料。今年AI Challenger的赛题之一与机翻相关。从中可得到五百多兆对齐的口语平行语料。

AI Challenger首页：https://challenger.ai/

面向NLP的非公开训练集同样质量有保证非公开训练集质量同样有保证，但正规数据交易平台上的中英平行语料的价格以万为单位。150万句对的价格是20万！

参考数据堂：http://www.datatang.com/detail/40

3 . 大型组织或学校建立的平行语料库

最出名的是联合国中英平行语料库。国内提供平行语料的有北大计算语言所，中科院计算所，交大语言工程所。

哈工大语言技术平台共享资源（需邮件申请）：
http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
包括语料和开源处理工具、可视化工具

共同缺点是只支持逐个检索而不提供下载接口，这限制了我们建立线下术语库记忆库。

解决方法有二：
一是用spider字典序遍历爬取线上术语语料，从而建立线下的术语库及记忆库；
二是把搜索页看作API，写插件将trados中待译文档逐句搜索译文，并将有译文的结果下载，返回本地。

4 . 爬虫爬取字典和双语网页

这是最无脑最万能的办法。技术和或许少量的资金就可以做的大而全。

简单算笔账：以Collins词典为例，内含约12万词加短语。

网页版柯林斯词典：https://www.collinsdictionary.com/

若仅仅关心术语库，即便每秒只爬取5个，一天可爬取60＊60＊24＊5=432000个。爬完整部柯林斯也过不到半天功夫。

若爬例句作为记忆库，假设平均每个词条附有10个例句，也能三天之内爬取完毕。

因此不需要集群化和高性能计算设备。

唯独的缺点在于，如果爬取到的双语网页存在非母语作者，双语文章就未必地道。另外对齐也是一贯难缠的技术问题。词典、大型组织和学术组织建立的语料库往往能保证质量且是已对齐过的句对，但这之外的语料质量就难保证，需要人工仔细甄别。

语料处理：从raw data到术语库的建立

尽管第一个板块中总结了记忆库和术语库的获取途径，这里我们并不想对于记忆库作更深入的展开。

一方面是根儿上的问题仍拿不出满意的解决方案，比如句对齐的效率和精度，又比如语料匹配的算法并不很讲道理，而其余的问题又相对简单。另一方面个人而言更愿意看到MT技术能将我们从基于大量语料的“伪智能”中解放出来，这或许才是真正前景光明的东西。

值得高兴的是，对于术语库，它数量有限，质量易保证，我们得到了相当完满的结果。

![Chomsky生成语法树][1]

1. raw data的获取

主要有以下几渠道：

.mdx 字典文件
.apkg anki牌组文件
表格文件，如.xls和.csv
文本文件，往往是做好切分对齐的平行语料句段

.mdx字典文件

顾名思义，字典文件即是字典的存储格式。其中包含各词条的释义、例句、字体颜色信息等等。

例句是句对齐的平行语料，可制作记忆库；单词词组和汉语解释可制作术语库。

专业词典用来制作术语库更合适，因为说法较固定不受语境左右，且往往单词和汉译一一对应。且专业术语庞杂，术语库省去了记忆和查询显著提高了效率。通用词典存在过多或简单常用，或用法灵活，一词多义，译文要看语境处理的词汇。将这些做成术语库在实务中意义不大。

提供几个mdx文件下载地址：
https://freemdict.com/
https://downloads.freemdict.com/
https://sourceforge.net/projects/goldendict/

.apkg anki 牌组文件

anki是一个记忆辅助软件。它拥有庞大的插件库，活跃的社区和丰富的牌组资源。

中文anki社区：http://www.ankichina.net/
anki插件库：https://ankiweb.net/shared/addons/

语言爱好者和语言考试的考生们制作了大量的词库牌组，甚至有人专门写了将mdx文件直接作为牌组导入anki的插件。anki牌组可作为带注释的文本导出，处理时和mdx文件并无两样。

尽管anki牌组往往是用户们依照词典制作的，社区中一些个性化牌组并不存在直接对应的词典：如依照词频降序的语料，如针对语言考试的语料，如外刊语料，如美剧对话语料。这些或许能适应我们的个性化需求。

表格文件，如.xls和.csv

网络上有现成的用词典和专业词典制作的xls格式术语库。在实务中我们通常把其余类型术语语料转化为xls或csv格式，再利用multiterm convert制作成trados可直接调用的术语库。

其中csv格式文件是列间以逗号分隔的文本，也可用表格形式打开和编辑。在原始语料处理成术语库要求的格式过程中，文本批处理和表格批处理往往异曲同工。

文本文件，往往是做好切分对齐的平行语料句段

上述列出的文件类型事实上都是带有批注的文本。mdx和apkg是标注了字体字号颜色功能的文本，csv是用逗号和换行排版的文本。

若用爬虫抓取网页，通常也是从源码中提取有用的字符串。那么源代码作为文本，我们需要利用正则表达式定位字符串起始和结束的标志，或者将指明排版、字体等的标记通通删去。这一道理适用于任何标记语言，如xml，html，tex，md。本文即是用markdown写的。

Note：
就建立术语库而言，可靠来源获取的术语语料几乎可以覆盖各个专业和行业，因此自然不必担心质量。

针对于某专业，可参考行业术语标准，翻译指南；针对时事，经济政治形势，国家政策，可参考中央编译局中央文献重要术语译文审定委员会发布的文件。

若仍找不到现成的词对齐平行语料，可以找到权威组织机构发布的双语文件，切分到词，对齐，再批处理制作。

2. 清洗：文本批处理（一）

术语库制作有严格的格式要求，我们获取到的原始语料往往不能符合。之前又有结论：一切语料皆是带注释的文本。于是把有效的平行术语语料挖出，或删除标记项即可。删除必先定位，正则表达式便派上用场。

标记语言习惯上将结构性信息放在括号中或转义字符之后。如xml，html中<TITLE>代表标题，
代表空标签。它们的语法均源自标准通用标记语言SGML。mdx文件中用的也是此类语法。而LaTeX语言中常用转义字符""，如"\bf{}"代表黑体。反倒是内容在括号内，标记在括号外。

因此我们在SGML系语言中定位<，>，[，]，删除括号和之间的文本即可。在TeX系语言中定位最内层的{，}，删除各行最内层左括号的左边和最内层右括号的右边即可。

最后推荐一个轻量级开源文本编辑器：Atom
它由github发布，主页：https://atom.io/
相较于vim和emacs，atom自带行号标注，语法高亮等常用配置，如果想修改主题也无需改动配置文件，社区有大量themes供下载。
身为后起之秀，atom的插件库之庞大不逊色于vim和emacs。它拥有汉化插件，markdown、LaTeX、html实时预览插件。我们可以将字典或网页等的标记语言文件源码高亮，并生成同步预览。本文的书写大量依赖这一功能，尤其是对照网页反推源码信息时。

Atom界面：插件商店、markdown代码和预览
Atom在正则表达式上也提供了更便利的选项，比如直接匹配整个词而无需用\b命令。丰富的插件给这款编辑器带来极大优势。