美文网首页
语料库检索

语料库检索

作者: 如是写 | 来源:发表于2016-03-29 17:50 被阅读0次

    第三章 语料库的基本技术

    第一部分 语料库检索的目的和检索类别



    简单检索

    以AntCone为例

    简单检索中,word是检索项的准确形式查询,如同同时选择Case,软件会区别大小写。在regex模式下,凡是包含所查找部分的单词都会被搜索出来。 所以在regex模式下,适合检索词缀。

    简单检索中的通配符

    1.*text 匹配text, context, pretext.   (0或多个字符)

    2. text+ 匹配text和texts  (0或1个字符)

    3.b?d    匹配bad,bed,bid等 (1个字符)

    4.in@case  匹配in case, in the case, in any case (0或1个词)

    5.in#case 匹配 in this case, in that case, in any case等 (1个词)

    6.text|texts 匹配text和texts (或者)

    利用好通配符可以在简单检索中定义检索项,例如:

    ?*_VB*@?_V?N      检索被动语态

    复杂检索

    1)了解赋码文本的规律,主要以TreeTagger和CLAWS为例

    a.观察词汇相关的语言现象时分析生文本更方便,但观察语法属性时使用赋码文本更方便。

    b.每一个形符(包括词和标点符号)后都带有赋码,形符和赋码之间形成一个“词_码”结构;而相邻的“词_码” 结构间有一个空格。

    c.词性赋码器在赋码的同时对文本进行了分词和断句。

    d.不同词性赋码器所使用的整套代码存在较大的差异性,且代码的总数也不相同。代码集被称为(tagset).

    e.一般来说,每一个词性赋码由2至4个字母数字或其他符号构成,这些符号具有很强层级体系,第一个符号可以看出词类。

    2)在AntCone中利用正则表达式进行复杂检索

    在对赋码文本进行检索时,应抓住赋码的层级特点,充分利用正则表达式中的常量和变量。

    相关文章

      网友评论

          本文标题:语料库检索

          本文链接:https://www.haomeiwen.com/subject/mcjslttx.html