美文网首页
ElasticSearch tokenizer和filter的区

ElasticSearch tokenizer和filter的区

作者: 秦汉邮侠 | 来源:发表于2019-07-07 02:27 被阅读0次

    背景

    • 在ES文档中分词器和分词过滤器的类型比较多
    • edgeGram和ngram既有分词词,同时又有分词过滤器
    • 在做中文、拼音全拼、拼音简拼搜索,导致是应该用分析词还是分词过滤器

    区别

    • 分词器会将整个输入拆分为分词,分词过滤器将对每个分词一些转换。

    例如,假设输入是The quick brown fox。如果您使用edgeNGram 分词器,将获得以下分词:

    T
    Th
    The
    The (最后一个字符是一个空格)
    The q
    The qu
    The qui
    The quic
    The quick
    The quick (最后一个字符是一个空格)
    The quick b
    The quick br
    The quick bro
    The quick brow
    The quick brown
    The quick brown (最后一个字符是一个空格)
    The quick brown f
    The quick brown fo
    The quick brown fox
    

    但是,如果使用standard分词器将输入拆分为分词,然后使用edgeNGram 过滤器,将获得以下分词

    T,Th,The
    q,qu,qui,quic,quick
    b,br,bro,brow,brown
    f,fo,fox
    

    在edgeNgram 标记器或标记过滤器之间进行选择,取决于你希望如何对文本进行切分及如何搜索

    参考来源

    相关文章

      网友评论

          本文标题:ElasticSearch tokenizer和filter的区

          本文链接:https://www.haomeiwen.com/subject/ehuvhctx.html