太多了不想写了,随便写了两个,这个根据需要去官网看文档吧。
ASCII Folding Token Filter
转为Ascii码等效项。
Length Token Filter
删除过长、过短的字词。
参数 | 说明 |
---|---|
min | 最小数值. 默认 0. |
max | 最大数值. 默认 Integer.MAX_VALUE. |
Lowercase Token Filter
小写词元。
参数 | 说明 |
---|---|
language | greek, irish, turkish |
Uppercase Token Filter
大写词元
NGram Token Filteredit
nGram
词元过滤器。
参数 | 说明 |
---|---|
min_gram | 默认为1。 |
max_gram | 默认为2。 |
Edge NGram Token Filter
edgeNGram
词元过滤器。
参数 | 说明 |
---|---|
min_gram | 默认为1。 |
max_gram | 默认为2。 |
side | 已弃用。front或back,默认front。 |
Stop Token Filteredit
删除停止词。
参数 | 说明 |
---|---|
stopwords | 停止词列表。默认_english_ 。 |
stopwords_path | 停止词文件。 文件路径相对于config目录或使用绝对路径。 每个停止词必须单独一行。 文件为UTF-8编码。 |
ignore_case | 设为true所有词被转为小写。默认false。 |
remove_trailing | 设置为false忽略最后一个字词是停止词的情况。默认true。 |
网友评论