背景
- 在ES文档中分词器和分词过滤器的类型比较多
- edgeGram和ngram既有分词词,同时又有分词过滤器
- 在做中文、拼音全拼、拼音简拼搜索,导致是应该用分析词还是分词过滤器
区别
- 分词器会将整个输入拆分为分词,分词过滤器将对每个分词一些转换。
例如,假设输入是The quick brown fox。如果您使用edgeNGram 分词器,将获得以下分词:
T
Th
The
The (最后一个字符是一个空格)
The q
The qu
The qui
The quic
The quick
The quick (最后一个字符是一个空格)
The quick b
The quick br
The quick bro
The quick brow
The quick brown
The quick brown (最后一个字符是一个空格)
The quick brown f
The quick brown fo
The quick brown fox
但是,如果使用standard分词器将输入拆分为分词,然后使用edgeNGram 过滤器,将获得以下分词
T,Th,The
q,qu,qui,quic,quick
b,br,bro,brow,brown
f,fo,fox
在edgeNgram 标记器或标记过滤器之间进行选择,取决于你希望如何对文本进行切分及如何搜索
网友评论