Solr学习笔记（三）：分词

Solr学习笔记（三）：分词

作者: 63e29c663713 | 来源:发表于2016-11-14 11:35 被阅读202次

Solr学习笔记（三）：分词
solr8.3.1配置+IK分词器配置+数据库配置
Solr6.4.2+Ik-analyzer6.3使用
【分词实验报告】solr+MMseg4j中文分词
solr使用总结
2018-11-09 Solr学习笔记(二)-Solr5.5.5
spring boot和solr整合
solr4 中文分词配置
Solr和中文分词器
solr系列2——solr集成IK Analyzer中文分词器

Analyzer(分析器)

https://cwiki.apache.org/confluence/display/solr/Understanding+Analyzers,+Tokenizers,+and+Filters

分词器就是将句子分成单个的词，过滤器就是对分词的结果进行筛选，例如中文中将“的”“呀”这些对句子主体意思影响不大的词删除，英语中类似的就是"is"，"a"等等。

分析器包括两个部分：tokenizer（分词器）和filter（分词过滤器，它们将按照所列的顺序发生作用）。for example：

<fieldType name="text_ik_analysis" class="solr.TextField" sortMissingLast="true"  omitNorms="true" autoGeneratePhraseQueries="false">
        <analyzer type="index">
                <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/>
                <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
                <filter class="solr.LengthFilterFactory" min="2" max="20" />
                <filter class="solr.RemoveDuplicatesTokenFilterFactory" />
        </analyzer>
        <analyzer type="query">
               <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/>
               <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
               <filter class="solr.LengthFilterFactory" min="2" max="20" />
               <filter class="solr.RemoveDuplicatesTokenFilterFactory" />
        </analyzer>
</fieldType>

Tokenizer（分词器）

常见的分词器有：

KeywordTokenizerFactory：不管什么内容，整句当成一个关键字
LetterTokenizerFactory：根据字母来分词，抛弃非字母的部分，例如："I can't" ==> "I", "can", "t"
WhitespaceTokenizerFactory：根据空格来分词，例如："I do" ==> "I", "do"
IKTokenizerFactory：IK分词器

Filter（过滤器）

常见的过滤器：

LowerCaseFilterFactory：将大写字母转换成小写，不处理非字母部分
SynonymFilterFactory：同义词
LengthFilterFactory: 限定字符长度
RemoveDuplicatesTokenFilterFactory：移除重复文本

相关文章

Solr学习笔记（三）：分词
Analyzer(分析器) https://cwiki.apache.org/confluence/display...
solr8.3.1配置+IK分词器配置+数据库配置
参考文献 Solr分词搜索solrj简单查询 solr-8.3.1版本连接MySQL、配置IK分词器 Solr配置...
Solr6.4.2+Ik-analyzer6.3使用
使用IK分词作为solr中文分词。将Ikik-analyzer-solr-6.3.0.jar【下载链接】放到/U...
【分词实验报告】solr+MMseg4j中文分词
目录## 1.安装solr并整合MMseg4j分词包 2.分词方法与分词效果分析 3.分词包背后的分词算法学习 4...
solr使用总结
涉及以下内容 1，安装solr 2，创建solr core 3，solr 分词库设置 4，solr 创建字段 5，...
2018-11-09 Solr学习笔记(二)-Solr5.5.5
2018-11-09 Solr5.5.5服务器配置中文分词器 [TOC] 1. Solr配置IK中文分词器 1. ...
spring boot和solr整合
上周简单的学习了solr的数据导入以及IK分词器的安装，今天学习一下solr的一些基本操作，以及和spring b...
solr4 中文分词配置
关于solr的安装和配置不详述，网上都有。重点说下中文分词。初学者可直接使用solr自带的中文分词器，smartc...
Solr和中文分词器
本文只是记录下Solr和IK中文分词器的安装配置。安装Solr 在Apache Solr官网下载相应版本...
solr系列2——solr集成IK Analyzer中文分词器
solr 中文分词器 IK Analyzer整合下载 IK Analyzer2012ff_hf1.zip分词包 ...

网友评论

本文标题：Solr学习笔记（三）：分词

本文链接：https://www.haomeiwen.com/subject/vwotettx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Solr学习笔记（三）：分词|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！