美文网首页
solr安装IK中文分词器

solr安装IK中文分词器

作者: 先生_吕 | 来源:发表于2017-05-24 17:31 被阅读192次

    solr默认是不支持中文分词的,这样就需要我们手工配置中文分词器,在这里我们选用IK Analyzer中文分词器。
    IK Analyzer
    下载地址:https://code.google.com/p/ik-analyzer/downloads/list

    【安装】
    1:解压下载的IKAnalyzer_2012_FF_hf1.zip压缩包,把IKAnalyzer2012FF_u1.jar拷贝到tomcat/webapps/solr/WEB-INF/lib目录下

    (如果不用tomcat启动,而是用solr脚本则在此配置)tomcat/webapps/solr-4.10.3/example/solr-webapp/webapp/WEB-INF/lib目录下

    2:在solr-4.10.3/example/solr-webapp/webapp/WEB-INF目录下创建目录classes,然后把IKAnalyzer.cfg.xml和stopword.dic拷贝到新创建的classes目录下即可。

    3:修改solr core的schema文件,默认是solr-4.10.4/example/solr/collection1/conf/schema.xml,添加如下配置

    <fieldType name="text_ik"class="solr.TextField">
       <!--索引时候的分词器-->
        <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
        <!--查询时候的分词器-->
        <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
    </fieldType>
    

    4:重启tomcat访问solr主页 http://hadoop:8081/solr

    不分词:

    不分词.png

    其他分词:

    其他分词.png

    IK分词:

    IK分词.png

    5:自定义词库
    (1)修改tomcat/solr/webapp/WEB-INF/classes目录下的IKAnalyzer.cfg.xml配置文件,添加如下配置

    <?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
    <properties>
            <comment>IK Analyzer 扩展配置</comment>
            <!--用户可以在这里配置自己的扩展字典-->
            <entry key="ext_dict">ext.dic;</entry>
            <!--用户可以在这里配置自己的扩展停止词字典-->
            <entry key="ext_stopwords">stopword.dic;</entry>
    </properties>
    

    (2)新建ext.dic文件,在里面添加如下内容(注意:ext.dic的编码必须是Encodein UTF-8 without BOM,否则自定义的词库不会被识别)

    (3):重启tomcat

    2017-05-24_172700.png

    相关文章

      网友评论

          本文标题:solr安装IK中文分词器

          本文链接:https://www.haomeiwen.com/subject/avjoxxtx.html