美文网首页es
ES分词器 - 内置分词器

ES分词器 - 内置分词器

作者: hellokitty小丸子 | 来源:发表于2019-05-06 16:49 被阅读0次
    1、分词:分词是将文本转换成一系列单词的过程,也可以叫文本分析,在ES里面称为Analysis: image

    2、分词器:分词器是ES中专门处理分词的组件,英文为Analyzer,它的组成如下:

    • Character Filters:针对原始文本进行处理,比如去除html标签
    • Tokenizer:将原始文本按照一定规则切分为单词
    • Token Filters:针对Tokenizer处理的单词进行再加工,比如转小写、删除或增新等处理

      3、分词器调用顺序:例: image
      4、ElasticSearch配备了广泛的内置分词器,无需进一步配置即可用于任何索引:即如果不进行任何配置,分词的规则就是使用内置分词器的默认规则。当然了,也可以根据使用者的需求,在内置分词器的基础上对Character Filters、Tokenizer、Token Filters进行配置。

    一、内置分词器:

    Standard Analyzer

    1、描述&特征:
    (1)默认分词器,如果未指定,则使用该分词器。
    (2)按词切分,支持多语言
    (3)小写处理,它删除大多数标点符号、小写术语,并支持删除停止词。
    2、组成:
    (1)Tokenizer:Standard Tokenizer
    (2)Token Filters:Lower Case Token Filter

    例:POST _analyze
    {
      "analyzer": "standard",
      "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
    }
    

    上面的句子会产生下面的条件:
    [ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog's, bone ]

    Simple Analyzer

    1、描述&特征:
    (1)按照非字母切分,简单分词器在遇到不是字母的字符时将文本分解为术语
    (2)小写处理,所有条款都是小写的。
    2、组成:
    (1)Tokenizer:Lower Case Tokenizer

    POST _analyze
    {
      "analyzer": "simple",
      "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
    }
    

    上面的句子会产生下面的条件:
    [ the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

    Whitespace Analyzer

    1、描述&特征
    (1)空白字符作为分隔符,当遇到任何空白字符,空白分词器将文本分成术语。
    2、组成:
    (1)Tokenizer:Whitespace Tokenizer
    例:

    POST _analyze
    {
      "analyzer": "whitespace",
      "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
    }
    

    上面的句子会产生下面的条件:
    [ The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dog's, bone. ]

    Stop Analyzer

    1、描述&特征:
    (1)类似于Simple Analyzer,但相比Simple Analyzer,支持删除停止字
    (2)停用词指语气助词等修饰性词语,如the, an, 的, 这等
    2、组成 :
    (1)Tokenizer:Lower Case Tokenizer
    (2)Token Filters:Stop Token Filter
    例:

    POST _analyze
    {
      "analyzer": "stop",
      "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
    }
    

    上面的句子会产生下面的条件:
    [ quick, brown, foxes, jumped, over, lazy, dog, s, bone ]

    Keyword Analyzer

    1、组成&特征:
    (1)不分词,直接将输入作为一个单词输出,它接受给定的任何文本,并输出与单个术语完全相同的文本。
    2、组成:
    (1)Tokenizer:Keyword Tokenizer
    例:

    POST _analyze
    {
      "analyzer": "keyword",
      "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
    }
    

    上面的句子会产生下面的条件:
    [ The 2 QUICK Brown-Foxes jumped over the lazy dog's bone. ]

    Pattern Analyzer

    模式分词器使用正则表达式将文本拆分为术语。
    (1)通过正则表达式自定义分隔符
    (2)默认是\W+,即非字词的符号作为分隔符

    Language Analyzers

    ElasticSearch提供许多语言特定的分析工具,如英语或法语。

    Fingerprint Analyzer

    指纹分词器是一种专业的指纹分词器,它可以创建一个指纹,用于重复检测。

    Custom analyzers

    如果您找不到适合您需要的分词器,您可以创建一个自定义分词器,它结合了适当的字符过滤器、记号赋予器和记号过滤器。

    相关文章

      网友评论

        本文标题:ES分词器 - 内置分词器

        本文链接:https://www.haomeiwen.com/subject/mwddoqtx.html