美文网首页
再次学习ES--11--6.4Anlysis

再次学习ES--11--6.4Anlysis

作者: lionel880 | 来源:发表于2018-12-10 17:27 被阅读0次

ayalysis以往对于我来说是个黑盒,并不清楚ES这个重要组件到底是如何进行分析的。属于知道个大概,但一深入就很模糊的状态。

概述

一种Analyzer -内置或自定义是否-仅仅是包含三个低级别构建块包:character filters(字符过滤器), tokenizers(分词器)和token filters(令牌过滤器)

  • character filters
    首先,字符过滤器接收原始文本字符的流,并且可以通过添加,移除,或改变字符变换流。例如,可以使用字符过滤器将印度语 - 阿拉伯数字(0 12345678 9)转换为其阿拉伯语 - 拉丁语等价物(0123456789),或者<b>从流中删除HTML元素。
    其次,这个字符过滤器filter和众多filter是可以多个进行处理的

  • Tokenizer
    分词器,接收字符流,并将它分为独立的tokens (通常是单词),如,whitespace只要看到任何空格,tokenizer就会将文本分成标记。它会将文本 "Quick brown fox!"转换为术语[Quick, brown, fox!]
    标记器还负责记录每个术语的顺序或位置以及该术语所代表的原始单词的开始和结束字符偏移。

  • Tip:分析器必须只有一个 Tokenizer

  • Token filters
    令牌滤波器接收到令牌流,并且可以添加,删除或改变令牌。例如,lowercase令牌过滤器将所有令牌转换为小写, stop令牌过滤器从令牌流中删除常用词(停用词)the, synonym令牌过滤器将同义词引入令牌流。
    令牌过滤器不会更改每个令牌的位置或字符偏移量。

分析器可以具有零个或多个 令牌过滤器,这些过滤器按顺序应用。

  • 所以,除了ES内置的analyzer,只要你指定这3项内容,你可以定制符合业务需要的analyzer

测试 analyzer

POST _analyze
{
  "tokenizer": "standard",
  "filter":  [ "lowercase" ],
  "text":      "test analyze ok"
}

结果为

"tokend":[
  {
      "token":"test",
      "start_offset":0,
      "end_offset":4,
      "type":"<ALPHANUM>",
      "position":0
  }
...
]

可以看到,解析后,结果包含了 token,原文本起始和结束位置,解析后的相对位置

相关文章

  • 再次学习ES--11--6.4Anlysis

    ayalysis以往对于我来说是个黑盒,并不清楚ES这个重要组件到底是如何进行分析的。属于知道个大概,但一深入就很...

  • js再次学习

    新进的公司,又要把我们js(前端)再培训一次,也就顺带学习一次。也收获不少,书读百遍,其义自见。 1、JavaSc...

  • 再次学习python

    最近换了新公司,比之前公司的工作忙了几番,然而周末又踏上了学习之路,想让自己变得更厉害一点,牺牲自己的休息时...

  • css再次学习

    id和class选择器 #para1{text-align:center;color:red;} Hello Wo...

  • 再次学习编码

    Ascii Ascii编码表共128个字符 前32个被称为不可见字符 后96个被称为可见字符 相对可见 不可见字符...

  • 再次认识“学习”

    写作课上,晓云老师让我们利用碎片时间来写作,让自己在空余时间来思考一个话题,于是我就在脑海中琢磨,我写什...

  • 寒假再次到来 学习再次开始

     就这样又一个寒假开始了。如果把学习当作一个大型的RPG游戏,那我去年的学习那就叫做“开荒”。 打过类似游戏的同学...

  • 第一次简书

    学习新东西 再次学习

  • Django orm 再次学习

    Django 的 orm 中使用到了元类和描述符这些高级知识,了解一下的可以看看这篇文章。 元类其实就是用来定义类...

  • 再次学习正面管教

    最近正逢开学季,陪孩子写作业又成了年轻父母们的头疼大事,在孩子找各种理由拖拉磨叽不写作业,不洗漱睡觉的时候...

网友评论

      本文标题:再次学习ES--11--6.4Anlysis

      本文链接:https://www.haomeiwen.com/subject/tyiocqtx.html