Elasticsearch搜索中文分词优化

作者: sudop | 来源:发表于2018-04-19 20:38 被阅读10220次

es中文分词优化
Elasticsearch搜索中文分词优化
Elasticsearch 中文分词器
Elasticsearch全文搜索引擎
为Elasticsearch添加中文分词插件-ik 并修改map
一个非常hao用的elasticsearch中文分词器插件 Ha
Elasticsearch 分词
Elasticsearch插件之分词ik
ElasticSearch 拼音和中文搜索
ElasticSearch安装中文分词器IKAnalyzer

Elasticsearch 中文搜索时遇到几个问题:

当搜索关键词如：“人民币”时，如果分词将“人民币”分成“人”，“民”，“币”三个单字，那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”，搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度?

搜索“RMB”时只会匹配到包含“RMB”关键词的内容，实际上，“RMB”和“人民币”是同义词，我们希望用户搜索“RMB”和“人民币”可以相互匹配，ES同义词怎么配置？

用户搜索拼音: 如"baidu",或者拼音首字母"bd",怎么匹配到"百度"这个关键词,又如用户输入"摆渡"这个词也能匹配到"百度"关键词,中文拼音匹配怎么做到?

怎么保证搜索关键词被正确分词,通常我们会采用自定义词典来做,那么怎么获取自定义词典?

接下来从以下几点讲一下怎么ES中文分词

中文分词器
ES 分词流程之 analysis,analyzer,filter,tokenizer
ES内置分词器
自定义analyzer
ES同义词功能实现
ES拼写纠错
ES自定义词典获取
停用词

1.IK 分词器

1，Elasticsearch中文分词我们采用Ik分词，ik有两种分词模式，ik_max_word,和ik_smart模式;
- ik_max_word 和 ik_smart 什么区别?

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合；
ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

索引时，为了提供索引的覆盖范围，通常会采用ik_max_word分析器，会以最细粒度分词索引，搜索时为了提高搜索准确度，会采用ik_smart分析器，会以粗粒度分词
字段mapping设置如下：

    "author": {
            "type": "string",
            "analyzer": "ik",
            "search_analyzer": "ik_smart"
        }

2.Elasticsearch之分析（analysis）和分析器（analyzer）

analysis索引分析模块充当analyzer分析器的可配置注册表,通过analyzer对文档索引阶段的字段和搜索String进行处理,自定义analyzer时,通常需要character filter tokenizer token filters来完成

2.1 character filter 字符过滤器

首先字符串经过过滤器（character filter），他们的工作是在分词前处理字符串。字符过滤器能够去除HTML标记，例如把“<a>”变成“a

2.2 tokenizer 分词器

英文分词可以根据空格将单词分开,中文分词比较复杂,可以采用机器学习算法来分词

2.2 token filters 表征过滤器

最后，每个词都通过所有表征过滤（token filters），他可以修改词（例如将“Quick”转为小写），去掉词（例如停用词像“a”、“and”、“the”等等），或者增加词（例如同义词像“a”、“and”、“the”等等）或者增加词（例如同义词像“jump”和“leap”）。

2.3 ES分词流程

character filter-->>tokenizer-->>token filters

2.5 自定义analyzer

官网example:

index :
    analysis :
        analyzer :
            myAnalyzer2 :
                type : custom
                tokenizer : myTokenizer1
                filter : [myTokenFilter1, myTokenFilter2]
                char_filter : [my_html]
                position_increment_gap: 256
        tokenizer :
            myTokenizer1 :
                type : standard
                max_token_length : 900
        filter :
            myTokenFilter1 :
                type : stop
                stopwords : [stop1, stop2, stop3, stop4]
            myTokenFilter2 :
                type : length
                min : 0
                max : 2000
        char_filter :
              my_html :
                type : html_strip
                escaped_tags : [xxx, yyy]
                read_ahead : 1024

2.6 分词mapping设置

通常为了保证索引时覆盖度和搜索时准确度,索引分词器采用ik_max_word,搜索分析器采用ik_smart模式

"content": {
          "type": "string",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_smart"
        }

1.7 如果更改了mapping分词器,需要重新索引数据才能生效

POST /_reindex
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
  }
}

因为倒排索引中的数据是索引时由分词器来处理的,如果分词器有变化,那么搜索时query关键词即使和doc中关键词相同,但是因为分词器的原因,分出来的词会出现不匹配的情况,因此当mapping或者分词器字典同义词词典等发生变化时,需要reindex索引数据

1.8 分词测试

http://127.0.0.1:9200/index/_analyze?analyzer=ik_max_word&pretty=true&text=中国驻洛杉矶

1.8 更改别名,不重启服务切换索引

POST /_aliases

{  
  "actions": [  
    {  
      "remove": {  
        "index": "oldindex",  
        "alias": "alias_oldindex"  
      }  
    },  
    {  
      "add": {  
        "index": "newindex",  
        "alias": "alias_oldindex"  
      }  
    }  
  ]  
}

2 同义词

2.1 建议同义词词典

elasticsearch /config/analysis 下建议同义词词典文件pro_synonym.txt,采用UTF-8编码,写入内容
同义词内容格式 ,注意标点符号使用英文符号
- 启航 => 起航 : "=>"左边的词全部会被右边的词替换
- 启航,起航 :使用","英文逗号分隔,两个词是互等的,分词时会同时分成两个词进行索引或者检索,如"启航"会被分成"启航","起航"两个词分别建立索引或者去倒排索引检索

自定义添加同义词通过ik分词器

"settings": {
        "analysis": {
            "filter": {
                "my_synonym_filter": {
                    "type": "synonym",
                    "synonyms_path": "analysis/pro_synonym.txt"
                }
            },
            "analyzer": {
                "ik_syno_max_word": {
                    "tokenizer": "ik",
                    "filter": "my_synonym_filter"
                },
                "ik_syno_smart": {
                    "tokenizer": "ik_smart",
                    "filter": "my_synonym_filter"
                }
            }
        }
    }

想查看同义词效果或者测试分词效果

http://192.168.0.100:9200/index/_analyze?analyzer=ik_max_word&pretty=true&text=启航

3 Suggest分词

suggest词需要对拼音前缀，全拼，中文进行前缀匹配，例如：“百度”一词，键入"baidu","bd","百"都必须匹配到，因此在索引的时候需要一词分多个分词器来索引保存，中文采用单字分词，拼音首字母和全拼需要自定义analyzer来索引。

Elasticsearch Suggest setting mapping设置参考如下

{
    "mappings": {
        "suggest": {
            "properties": {
                "full_pinyin": {
                    "type": "completion",
                    "analyzer": "full_pinyin_analyzer",
                    "payloads": true,
                    "preserve_separators": false,
                    "preserve_position_increments": true,
                    "max_input_length": 50
                },
                "prefix_pinyin": {
                    "type": "completion",
                    "analyzer": "prefix_pinyin_analyzer",
                    "search_analyzer": "standard",
                    "payloads": true,
                    "preserve_separators": false,
                    "preserve_position_increments": true,
                    "max_input_length": 50
                },
                "suggestText": {
                    "type": "completion",
                    "analyzer": "standard",
                    "payloads": true,
                    "preserve_separators": false,
                    "preserve_position_increments": true,
                    "max_input_length": 50
                }
            }
        }
    },
    "settings": {
        "index": {
            "analysis": {
                "filter": {
                    "_pattern": {
                        "type": "pattern_capture",
                        "preserve_original": "1",
                        "patterns": ["([0-9])", "([a-z])"]
                    },
                    "full_pinyin": {
                        "keep_first_letter": "false",
                        "keep_none_chinese_in_first_letter": "false",
                        "type": "pinyin",
                        "keep_original": "false",
                        "keep_full_pinyin": "true"
                    },
                    "prefix_pinyin": {
                        "keep_first_letter": "true",
                        "none_chinese_pinyin_tokenize": "false",
                        "type": "pinyin",
                        "keep_original": "false",
                        "keep_full_pinyin": "false"
                    }
                },
                "analyzer": {
                    "full_pinyin_analyzer": {
                        "filter": ["lowercase", "full_pinyin"],
                        "tokenizer": "standard"
                    },
                    "prefix_pinyin_analyzer": {
                        "filter": ["lowercase", "prefix_pinyin"],
                        "tokenizer": "standard"
                    }
                }
            }
        }
    }
}

4 中文拼音搜索

1.关于搜索关键词会将不相关词搜索出来

解决单字搜索的一种方案
- 问题：搜索时，搜索牙膏，需检索出包含“牙膏”二字的内容，过滤掉包含“牙”或者“膏”的内容，但是搜索单字“牙”或者“膏”时需要将牙膏匹配出来
- 方案：加入单字字典，ik_max_word分词时，会把所有形式分出来,因此单字字典，此分词模式下会将单字索引起来，ik_smart会按照最粗粒度分词，搜索关键词时不会匹配单字内容
- 索引和搜索采用不同分词器 "analyzer": "ik", "search_analyzer": "ik_smart"
- 过程：更改mapping，searchAnalyzer=ik_smart,reindex，reindex现有数据参考资料

POST /_reindex
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
  }
}

部分内容有待完善

es中文分词优化
参考以下文章： Elasticsearch搜索中文分词优化：https://www.jianshu.com/p/9...
Elasticsearch搜索中文分词优化
Elasticsearch 中文搜索时遇到几个问题: 当搜索关键词如：“人民币”时，如果分词将“人民币”分成“人”...
Elasticsearch 中文分词器
简介：在使用Elasticsearch 进行搜索中文时，Elasticsearch 内置的分词器会将所有的汉字切...
Elasticsearch全文搜索引擎
Elasticsearch 全文搜索引擎分布式多用户 RESTful接口 java开发服务支持中文分词搜索...
为Elasticsearch添加中文分词插件-ik 并修改map
为什么需要中文分词不造轮子了, 这一篇文档写得挺易懂的: elasticsearch 利用ik分词搜索安装ik...
一个非常hao用的elasticsearch中文分词器插件 Ha
首先上地址 elasticsearch (es) hao 分词器中文分词器elasticsearch-analy...
Elasticsearch 分词
中文分词 elasticsearch-analysis-ik jieba Hanlp THULAC 自定义分词
Elasticsearch插件之分词ik
Elasticsearch本身对中文的分词支持不是很好，可以通过安装elasticsearch的ik分词器插件el...
ElasticSearch 拼音和中文搜索
参考来源拼音搜索+中文搜索 Elasticsearch中文汉字拼音混合搜索 Elasticsearch Quer...
ElasticSearch安装中文分词器IKAnalyzer
ElasticSearch安装中文分词器IKAnalyzer 本篇主要讲解如何在ElasticSearch中安装...

Elasticsearch搜索中文分词优化

1.IK 分词器

2.Elasticsearch之分析（analysis）和分析器（analyzer）

2.1 character filter 字符过滤器

2.2 tokenizer 分词器

2.2 token filters 表征过滤器

2.3 ES分词流程

2.5 自定义analyzer

2.6 分词mapping设置

1.7 如果更改了mapping分词器,需要重新索引数据才能生效

1.8 分词测试

1.8 更改别名,不重启服务切换索引

2 同义词

3 Suggest分词

4 中文拼音搜索

1.关于搜索关键词会将不相关词搜索出来

相关文章

es中文分词优化

Elasticsearch搜索中文分词优化

Elasticsearch 中文分词器

Elasticsearch全文搜索引擎

为Elasticsearch添加中文分词插件-ik 并修改map

一个非常hao用的elasticsearch中文分词器插件 Ha

Elasticsearch 分词

Elasticsearch插件之分词ik

ElasticSearch 拼音和中文搜索

ElasticSearch安装中文分词器IKAnalyzer

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

NLP&NLU

ES正文分词设置

elasticsearch

elasticsearch

selector