语料库检索

作者: 如是写 | 来源:发表于2016-03-29 17:50 被阅读0次

语料库检索
2021-08-31 从IPFS中检索出佛藏语料库
IR homework 1: 构建布尔检索系统
免费的AntConc：强大好用的本地语料检索工具
NLTK学习记录2：使用语料库和词汇资源
通俗理解TF-IDF
pyhanlp文本分类与情感分析
2019-08-05
#6801#
Coca

第三章语料库的基本技术

第一部分语料库检索的目的和检索类别

简单检索

以AntCone为例

简单检索中，word是检索项的准确形式查询，如同同时选择Case,软件会区别大小写。在regex模式下，凡是包含所查找部分的单词都会被搜索出来。所以在regex模式下，适合检索词缀。

简单检索中的通配符

1.*text 匹配text, context, pretext. (0或多个字符）

2. text+ 匹配text和texts （0或1个字符）

3.b?d 匹配bad,bed,bid等（1个字符）

4.in@case 匹配in case, in the case, in any case （0或1个词）

5.in#case 匹配 in this case, in that case, in any case等（1个词）

6.text|texts 匹配text和texts （或者）

利用好通配符可以在简单检索中定义检索项，例如：

?*_VB*@?_V?N 检索被动语态

复杂检索

1）了解赋码文本的规律，主要以TreeTagger和CLAWS为例

a.观察词汇相关的语言现象时分析生文本更方便，但观察语法属性时使用赋码文本更方便。

b.每一个形符（包括词和标点符号）后都带有赋码，形符和赋码之间形成一个“词_码”结构；而相邻的“词_码” 结构间有一个空格。

c.词性赋码器在赋码的同时对文本进行了分词和断句。

d.不同词性赋码器所使用的整套代码存在较大的差异性，且代码的总数也不相同。代码集被称为(tagset).

e.一般来说，每一个词性赋码由2至4个字母数字或其他符号构成，这些符号具有很强层级体系，第一个符号可以看出词类。

2）在AntCone中利用正则表达式进行复杂检索

在对赋码文本进行检索时，应抓住赋码的层级特点，充分利用正则表达式中的常量和变量。

网友评论

本文标题：语料库检索

本文链接：https://www.haomeiwen.com/subject/mcjslttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

语料库检索

第三章语料库的基本技术

第一部分语料库检索的目的和检索类别

简单检索

复杂检索

相关文章

语料库检索

2021-08-31 从IPFS中检索出佛藏语料库

IR homework 1: 构建布尔检索系统

免费的AntConc：强大好用的本地语料检索工具

NLTK学习记录2：使用语料库和词汇资源

通俗理解TF-IDF

pyhanlp文本分类与情感分析

2019-08-05

#6801#

Coca

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

语料库检索

第三章 语料库的基本技术

第一部分 语料库检索的目的和检索类别

简单检索

复杂检索

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

第三章语料库的基本技术

第一部分语料库检索的目的和检索类别