导语:“语料库启示录系列文章,针对有意向构建语料库的人群,尤其是缺乏技术背景的翻译语言工作者。由浅入深,带您了解语料库构建各个时期的值得注意的事项,让您在构建语料库之前就已经全面准备,按部就班开展工作。关注这一系列,让我们将您引入语料库开发与建设的大门。摆脱对技术陌生的恐惧,其实语料库的创建有法可循,有技可用。”
本文作者傅源,作为语智云帆科技有限公司资讯类产品经理,今天为大家讲解建立语料库的过程当中,各位老师都很关心的一个方面,也是占据建库的时间很高比例的工作,那就是:语料采集。开始讨论这一工作之前,老师们首先要完成的背景思考是:建立语料库是为了辅助哪个研究问题?*
这个研究问题指的是什么?它不只是一个科研课题,也可以是教学活动中的某种需要。比如研究某一专用领域语言的特点,或者学生掌握词汇的特点以及需加强的词汇集合。对于研究问题的描述,愈加详细愈能为之后的语料库各个环节提供良好的准备。明确研究问题的各个方面,会让您明确之后采集语料时,各类型语料占比的大小;语料提供者个人因素的特点以及可能产生的干扰等等。
确定了想要研究的问题,需要的语料类型以及获取来源,甚至预期数量等一系列问题才会被回答,合适的语料库特征也会显现。如果是想要研究口语问题,那么必定需要建立口语语料库,获取的方式通常就会是录音以及转写。能够获取此类口语语料的人群特点也可以被勾画出来。比如某个民族、某个学龄段的学生、某个国家地区等等。如果是想要研究科技类学术文章用词特点,那么获取来源更偏向为各大权威学术期刊或者学校内部积累的科技类文章;而且这一课题的研究方式很有可能是需要对比通用语料库来凸显该领域语言的独特之处。所以一个有价值的通用语料库作为对比目标如需要也要被设定清楚。
建库者在明确了自己的研究课题之后,就可更加详尽地描述出,能够代表研究目标的语料特征。这时依据平时对研究领域的关注,罗列出可靠的信源以及采集方式。如下罗列出常见的语料来源:
1.网络
当信源是网络资源是,要考虑到的是,网络资源本身的格式多样以及质量良莠不齐。因此要考虑以三大方面:
a.权威性
有权威性的来源一般为:其他成熟语料库、权威性较高的内容生产平台。
当语料来自于其他语料库时,其权威性通常有保证。但是也有其他要提前了解的信息:首先了解语料生产的背景与目的。如果来自其他语料库那么首先要知晓其设计目的、语料类型与各类型占比。这样在通过一定检索方式获得样本之后,可以清楚的了解样本的构成。成熟的语料库都会备有说明文件,甚至会有各种统计数据的展示页面。请尽可能的在投入精力与物力从中获得语料之前,通读这些文件与数据。以保证,所获得的文件符合设定的研究方向。
b.版权问题
这就牵扯到老师们十分关注的问题:使用语料需不需要花钱?一般来说,网上公开信息的使用是不牵扯版权问题的,比如政府公告信息,或其他作者明确声明可以免费使用的作品。其他涉及到版权作品的使用,无论是出于研究目的还是语料库之后会用于商用,都最好与作者进行提前沟通。
c.格式清洁
网络资源不比其他初版物或者直接按需求录入的语料,格式进行了严格的审核与校对;电子格式多种多样,部分会因为编码格式不一致导致乱码问题的出现是十分令人头疼的。所以在获得语料之时就要注意格式与编码设定的统一;在获取语料至本地之后,也要进行必要的人工审核流程,来确保最终录入语料库的样本质量达到要求。
2.扫描
对于印刷品中信息的获取,可以先通过扫描将信息从纸张印刷品的形式转化成电子信息。之后通过OCR等技术手识别其中的文本信息。为了保证之后文字读取的高成功率,请注意扫描清晰度。现如今的图像文本识别等技术,一定程度上提高了此项操作的可行性。在扫描过程中要注意扫描环境的整洁,比如扫描仪器上的灰尘会导致每页的扫描结果或许增加很强的噪音,导致批量扫描的结果作废。
3.录音与转写
尤其是在建立口语语料库时,一般认为其是必要的步骤。因为口语语料的检索通过语音目前还无法十分有效的操作,所以对语音的检索是依赖其转写后的文本信息。转写时要注意根据研究问题,来设定转写信息类型,比如:停顿、语调、噪音等是否需要转写,这取决于研究问题是否被这些因素所影响。
4.键盘录入
通过键盘录入的方式,将其他形式的文本,比如印刷品等键入到语料库的语料储备文档中。或者语料有有权威认证或者能够代表研究语料特点的生产者,直接产生并录入至语料库预选文档中。
*此处措辞为语料库辅助课题研究,是主要考虑到国内常见研究为基于语料库而进行的。
参考文献:
《语料库应用教程》作者:梁茂成 李文中 许家金
网友评论