美文网首页
elasticsearch分词器

elasticsearch分词器

作者: 3517a85fd522 | 来源:发表于2018-10-12 16:57 被阅读0次
1.什么是分词器

分词器(analyzer)主要包含两个功能: 切分词语,normalization(时态的转换,单复数的转换,同义词的转换,大小写的转换等等)
分词器主要包含2个部分:

  • tokenizer(分解器)
  • token filter(词元过滤器)
    tokenizer:
    分解器在处理之前会经过预处理,比如去除html标记等,这些预处理的算法叫做字符过滤器(character filter)
    一个分解器会有一个或多个character filter。分解器可以把一个字符串分解成一系列的词元(就是单个的词条).
    token filter
    token filter会将tokenizer处理完的一系列token进一步处理,比如转换大小写,同义词处理,停止词去掉等。
    分词器流程
2.分词器种类

此处仅列出一部分。
es内置分词器:
standard analyzer,whitespace analyzer,language analyzer...

相关文章

网友评论

      本文标题:elasticsearch分词器

      本文链接:https://www.haomeiwen.com/subject/qvjgaftx.html