3.5-使用分析器进行分词

作者: 落日彼岸 | 来源:发表于2020-03-16 16:03 被阅读0次

Analysis 与 Analyzer

Analysis - 文本分析是把全文本转换一系列单词(term/token)和过程, 也叫分词
Analysis是通过Analyzer来实现的
- 可使用ElasticSearch内置的分析器/或者按需定制化分析器
除了在数据写入时转换词条,匹配Query语句时候也需要用相同的分析器对查询语句进行分析

Analyzer的组成

分词器是专门处理分词的组件,Analyzer由三部分组成
- Character Filters (针对原始文本处理, 例如去除html)
- Tokenizer (按照规则切分为单词)
- Token Filter (将切分的单词进行加工, 小写, 删除stopwords, 增加同义词)

Analyzer的组成

ElasticSearch 的内置分词器

Standard Analyzer - 默认分词器, 按词切分, 小写处理
Simple Analyzer - 按照非字母切分(符号被过滤),小写处理
Stop Analyzer - 小写处理,停用词过滤(the, a, is)
Whitespace Analyzer - 按照空格切分, 不转小写
Keyword Analyzer - 不分词, 直接将输入当作输出
Pattern Analyzer - 正则表达式, 默认 \W (非字符分隔)
Language - 提供了30多种常见语言的分词器
Customer Analyzer 自定义分词器

使用 _analyzer API

_analyzer API

Standard Analyzer - 默认分词器, 按词切分, 小写处理

Standard Analyzer

Simple Analyzer - 按照非字母切分(符号被过滤),小写处理

Simple Analyzer

Stop Analyzer - 小写处理,停用词过滤(the, a, is)

Stop Analyzer

Whitespace Analyzer - 按照空格切分, 不转小写

Whitespace Analyzer

Keyword Analyzer - 不分词, 直接将输入当作输出

Keyword Analyzer

Pattern Analyzer - 正则表达式, 默认 \W (非字符分隔)

Pattern Analyzer

Language - 提供了30多种常见语言的分词器

Language

中文分词的难点

中文句子, 切分成一个一个词(不是一个个字)
英文中, 单词有自然的空格作为分隔
一句中文, 在不同的上下文有不同的理解
- 这个苹果, 不大好吃 / 这个苹果, 不大, 好吃!

ICU Analyzer

more Analyzer

课程DEMO

#Simple Analyzer – 按照非字母切分（符号被过滤），小写处理
#Stop Analyzer – 小写处理，停用词过滤（the，a，is）
#Whitespace Analyzer – 按照空格切分，不转小写
#Keyword Analyzer – 不分词，直接将输入当作输出
#Patter Analyzer – 正则表达式，默认 \W+ (非字符分隔)
#Language – 提供了30多种常见语言的分词器
#2 running Quick brown-foxes leap over lazy dogs in the summer evening

#查看不同的analyzer的效果
#standard
GET _analyze
{
  "analyzer": "standard",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

#simpe
GET _analyze
{
  "analyzer": "simple",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}


GET _analyze
{
  "analyzer": "stop",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}


#stop
GET _analyze
{
  "analyzer": "whitespace",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

#keyword
GET _analyze
{
  "analyzer": "keyword",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

GET _analyze
{
  "analyzer": "pattern",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}


#english
GET _analyze
{
  "analyzer": "english",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}


POST _analyze
{
  "analyzer": "icu_analyzer",
  "text": "他说的确实在理”"
}


POST _analyze
{
  "analyzer": "standard",
  "text": "他说的确实在理”"
}


POST _analyze
{
  "analyzer": "icu_analyzer",
  "text": "这个苹果不大好吃"
}

相关阅读

https://www.elastic.co/guide/en/elasticsearch/reference/7.1/indices-analyze.html

https://www.elastic.co/guide/en/elasticsearch/reference/current/analyzer-anatomy.html

网友评论

本文标题：3.5-使用分析器进行分词

本文链接：https://www.haomeiwen.com/subject/mmxnehtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

3.5-使用分析器进行分词

Analysis 与 Analyzer

Analyzer的组成

ElasticSearch 的内置分词器

使用 _analyzer API

Standard Analyzer - 默认分词器, 按词切分, 小写处理

Simple Analyzer - 按照非字母切分(符号被过滤),小写处理

Stop Analyzer - 小写处理,停用词过滤(the, a, is)

Whitespace Analyzer - 按照空格切分, 不转小写

Keyword Analyzer - 不分词, 直接将输入当作输出

Pattern Analyzer - 正则表达式, 默认 \W (非字符分隔)

Language - 提供了30多种常见语言的分词器

中文分词的难点

课程DEMO

相关阅读

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读