美文网首页
语料库检索

语料库检索

作者: 如是写 | 来源:发表于2016-03-29 17:50 被阅读0次

第三章 语料库的基本技术

第一部分 语料库检索的目的和检索类别



简单检索

以AntCone为例

简单检索中,word是检索项的准确形式查询,如同同时选择Case,软件会区别大小写。在regex模式下,凡是包含所查找部分的单词都会被搜索出来。 所以在regex模式下,适合检索词缀。

简单检索中的通配符

1.*text 匹配text, context, pretext.   (0或多个字符)

2. text+ 匹配text和texts  (0或1个字符)

3.b?d    匹配bad,bed,bid等 (1个字符)

4.in@case  匹配in case, in the case, in any case (0或1个词)

5.in#case 匹配 in this case, in that case, in any case等 (1个词)

6.text|texts 匹配text和texts (或者)

利用好通配符可以在简单检索中定义检索项,例如:

?*_VB*@?_V?N      检索被动语态

复杂检索

1)了解赋码文本的规律,主要以TreeTagger和CLAWS为例

a.观察词汇相关的语言现象时分析生文本更方便,但观察语法属性时使用赋码文本更方便。

b.每一个形符(包括词和标点符号)后都带有赋码,形符和赋码之间形成一个“词_码”结构;而相邻的“词_码” 结构间有一个空格。

c.词性赋码器在赋码的同时对文本进行了分词和断句。

d.不同词性赋码器所使用的整套代码存在较大的差异性,且代码的总数也不相同。代码集被称为(tagset).

e.一般来说,每一个词性赋码由2至4个字母数字或其他符号构成,这些符号具有很强层级体系,第一个符号可以看出词类。

2)在AntCone中利用正则表达式进行复杂检索

在对赋码文本进行检索时,应抓住赋码的层级特点,充分利用正则表达式中的常量和变量。

相关文章

  • 语料库检索

    第三章 语料库的基本技术 第一部分 语料库检索的目的和检索类别 简单检索 以AntCone为例 简单检索中,wor...

  • 2021-08-31 从IPFS中检索出佛藏语料库

    从IPFS中检索出佛藏语料库:CID : QmY944bgZiprFx3Kov7Q929GcXYBhKzhi6NK...

  • IR homework 1: 构建布尔检索系统

    ir homework 1: 构建布尔检索系统 思路 语料库预处理 去除非中文汉字符号,包括:标点符号、英文、数字...

  • 免费的AntConc:强大好用的本地语料检索工具

    本文目的:探索对于笔译译者有用的本地语料检索工具AntConc。正如在翻译利器:语料库(入门篇)中,笔者提过,“语...

  • NLTK学习记录2:使用语料库和词汇资源

    内置的语料库 或者 从语料库中提取文本信息 再例如Brown语料库 内置语料库基本函数 载入本地语料库 条件频率分...

  • 通俗理解TF-IDF

    定义 在信息检索中,tf-idf(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要...

  • pyhanlp文本分类与情感分析

    语料库 本文语料库特指文本分类语料库,对应IDataSet接口。而文本分类语料库包含两个概念:文档和类目。一个文档...

  • 2019-08-05

    请问语料库的作用主要是什么,如何构建领域语料库,领域语料库建好以后,如何发挥作用。如把军事语料库作为一项研究内容的...

  • #6801#

    第4章 语料库与语言知识库 语料库统计 两层含义:利用语料库对于语言的某个方面进行研究;一句语料库所反应出来的语言...

  • Coca

    语料库

网友评论

      本文标题:语料库检索

      本文链接:https://www.haomeiwen.com/subject/mcjslttx.html