美文网首页ElasticSearch入门玩转大数据大数据 爬虫Python AI Sql
四十、Elasticsearch初识搜索引擎-内置分词器

四十、Elasticsearch初识搜索引擎-内置分词器

作者: 编程界的小学生 | 来源:发表于2017-07-09 15:03 被阅读1099次

    1、什么是分词器
    切分词语,给你一段句子,然后将这段句子拆分成一个个的单个的单词,同时对每个单词进行normalization(时态转换,单复数转单,大小写转换等等),提升recall召回率。

    2、什么是normalization?
    分词器

    3、什么是recall?
    召回率,搜索的时候,增加能够搜索到的结果的数量

    4、分词相关的几个关键字段解释
    (1)character filter:在一段文本进行分词之前,先进行预处理,比如说最常见的就是,过滤html标签(<span>hello</span> --> hello,& --> and,I&you --> I and you等等

    (2)tokenizer:分词,hello you and me -->hello,you,and,me

    (3)token filter:大小写,去掉无用单词,时态,同义词等,比如:dogs --> dog, liked-->like, Tom-->tom,去掉a/the/an这些无用单词,mother-->mom,small-->little等

    一个分词器很重要,将一段文本进行各种处理,最后处理好的结果才会拿去建立倒排索引

    5、ES内置分词器简单介绍
    比如有段话:
    Set the shape to semi-transparent by calling set_trans(5)

    (1)standard analyzer:标准分词器(默认是这种)
    set,the,shape,to,semi,transparent by,calling,set_trans,5

    (2)simple analyzer:简单分词器
    set, the, shape, to, semi, transparent, by, calling, set, trans

    (3)whitespace analyzer:空白分词器。大小写,下划线等都不会转换
    Set, the, shape, to, semi-transparent, by, calling, set_trans(5)

    (4)language analyzer:(特定语言分词器,比如说English英语分瓷器)
    set, shape, semi, transpar, call, set_tran, 5

    若有兴趣,欢迎来加入群,【Java初学者学习交流群】:458430385,此群有Java开发人员、UI设计人员和前端工程师。有问必答,共同探讨学习,一起进步!
    欢迎关注我的微信公众号【Java码农社区】,会定时推送各种干货:


    qrcode_for_gh_577b64e73701_258.jpg

    相关文章

      网友评论

      • trgaaaaa:想问问怎么读取文件并建分词索引啊

      本文标题:四十、Elasticsearch初识搜索引擎-内置分词器

      本文链接:https://www.haomeiwen.com/subject/cwgshxtx.html