美文网首页
刘世界:语料数据处理与实践应用

刘世界:语料数据处理与实践应用

作者: 翻译技术点津 | 来源:发表于2023-02-22 10:11 被阅读0次


翻译技术寒假集训营
第五讲

人工智能时代翻译技术寒假集训营第五讲开讲啦!为大家邀请到翻译技术界的青年才俊刘世界博士讲授【语料数据处理与实践应用】,世界博士为大家分步骤介绍了语料数据加工处理流程,主流语料工具检索技巧,定制属于自己的垂直领域语料库等。跟随小编一起回顾下本节课程的精彩内容吧~

本节课程主要内容包括:

1、语料数据加工处理流程

2、术语库的创建及应用

3、使用语料库/术语库资源推荐


严重声明:在运用自动化采集算法或工具进行数据采集时,请大家严格遵守《中华人民共和国计算机信息系统安全保护条例》(1994)、《中华人民共和国网络安全法》(2016)、《中华人民共和国数据安全法》(2021)等有关网络数据采集行为、路径的法律法规,同时严格遵守科学研究伦理。


一、语料数据加工处理流程

首先世界博士按照语料采集、加工、检索应用的顺序为大家介绍了语料数据加工处理流程。首先语料采集部分分为自动化采集和人工采集,世界博士为大家分享了许多亲测好用自动化语料采集器,例如:八爪鱼采集器、火车头采集器、后裔采集器,TextForever等。人工采集语料也可以通过一些工具来协助我们做到批量文本处理与转换,例如文本处理可以使用ABBY FineReader、天若文字识别等OCR软件;格式转换可以使用Convertio、iLovePDF等做到不同格式间无痛切换。

接下来,世界博士从语料清洗,语料对齐,格式转换,分词赋码四个方面介绍了语料加工流程。这部分分享的软件实在太多啦,请看下图!当然,马了不等于会了,大家一定还要抽空自己探索哟~


二、术语库的创建与应用

世界博士用完整的实操流程演示详细地讲解了如何创建术语库,如何转换术语数据、如何提取术语和进行术语检索。

创建术语我们可以用SDL MultiTermDesktop、或者SDL Trados Studio中的MultiTerm组件。

转换术语数据,意思是把数据转换成术语库能“吃进去”的文件格式,可以使用SDL MultiTerm Convert、Glossary Converter。

术语提取可以使用SDL MultiTerm Extract,能将tmx格式转换成xtb也就是术语库格式。语帆术语宝、金声语料对齐助手、Tmxmall在线对齐也是常用的术语提取和对齐软件。


三、使用语料库/术语库资源推荐

介绍完术语库创建的完整流程之后,世界博士向大家介绍了一些常用术语库和词典。部分操作视频在世界博士的B站账号有详细介绍哦~

(世界博士的个人Bilibili账号 强烈安利!)

以上就是“人工智能时代翻译技术寒假集训营”第五讲的干货啦,希望大家收获满满!

本讲课程回放指路:https://war.xet.tech/s/4cGcwe

欢迎小伙伴们给我们留言~

相关文章

网友评论

      本文标题:刘世界:语料数据处理与实践应用

      本文链接:https://www.haomeiwen.com/subject/athakdtx.html