美文网首页
Solr 环境搭建(windows)

Solr 环境搭建(windows)

作者: 阿太哥 | 来源:发表于2017-04-03 10:05 被阅读598次

    1 准备工作及相关介绍

    solr和lucene的版本是同步更新的,最新版本是6.5.0。本案例使用4.10.3

    java运行环境 jdk1.7以上

    mysql 5.x

    tomcat7

    sor归档文件地址: http://archive.apache.org/dist/lucene/solr/  选择你需要的版本和操作系统对应的文件。windows下载*.zip的文件。以solr-4.10.3.zip为例,解压后获得以下目录结构:

    solr的安装需要涉及到solrhome与solrcore等基本概念。安装配置solr其实与我们安装sql数据库类似,solrhome相当于是一个home目录,它下面包含了多个数据集合solrcore。在mysql中,我们使用工具navicat时,需要建立连接,然后再这个连接里建立数据库,在对应的数据库里建立数据表。solrhome在这里就可以理解为“数据库”,solrcore理解为“数据表”。

    安装

    tomcat及java运行环境这里不做介绍。我们需要将solr的war包复制到tomcat下,并添加相关依赖包,相关的配置。

    这里约定我的目录结构,solr的资源包解压的目录为d:\solr-4.10.3 以下简称solr_4.10.3

    tomcat的目录为d:\dev\tomcat\tomcat7-solr  以下简称catalina_home

    自定义的solrhome目录为D:\develop\12-solr\solrhome 以下简称solr_home

    1 (目的:将官方资源包下的solr.war拷贝到本地tomcat下使用)拷贝solr.war

      从solr下载的目录solr_4.10.3\example\webapps 下solr.war到catalina_home\webapps目录。在tomcat目录下catalina_home\bin下点击startup.bat 启动容器。此时solr.war会被解压出来,将webapps下的solr.war删除,保留解压后的solr文件夹。

    2 添加扩展服务包,将solr_4.10.3\example\lib\ext 下的所有jar包(依赖日志包)拷贝到tomcat catalina_home\webapps\solr\WEB-INF\lib 下

    3 配置文件添加修改

    复制solr_4.10.3\example\resources 下log4j.properites 到catalina_home\webapps\solr\WEB-INF\classes 并修改catalina_home\webapps\solr\web.xml 指定solr/home的配置(将注释取消并修改)如下

    找到env-entry-name为solr/home,配置env-entry-value为D:\develop\12-solr\solrhome  (solr-home的目录按你的指定)。

    3 solrhome和solrcore的安装

    solrhome是solr服务运行的主目录,一个solrhome包含多个 solrcore,一个solrcore目录里有一个solr实例运行和配置的文件和数据,每个solrcore都可以独立对外提供搜索和索引服务。多个solrcore是相互独立的。在下载的资源文件中solr_4.10.3\example\solr(就是solrhome)下包含一个文件夹collection1(就是solrcore),solrcore下包含conf,core.properties,README.txt,data(默认的solr数据目录,包含索引文件和tlog日志信息)。所谓solrcore和solrhome的安装就是以上文件的拷贝和配置。

    由于tomcat下的solr服务中的web.xml指定了solrhome目录(D:\develop\12-solr\solrhome)将solr_4.10.3\example\solr下的所有文件拷贝到D:\develop\12-solr\solrhome (solrhome,solrcore基本安装完成,还差配置)。

    solrcore配置,solrcore/conf目录下有个solrconfig.xml的配置文件。在该文件里主要配置lib,datadir,requestHandler(如果不配置,使用的是默认的配置)

    到此,基本的安装就结束了,重启tomcat服务器,访问本地服务器/solr就可以进入solr的dashboard。

    solrconfig.xml

    solrcore下config里有一个文件solrconfig.xml用来配置solrcore的运行信息。核心包含lib,datadir,requestHandler

    lib标签

    solrcore需要添加扩展依赖包,通过lib就可以指定依赖包的地址

    例如其中的一个配置(这是solr_4.10.3\example\solr\collectioin1\conf\solrconfig.xml下的配置文件)

    <lib dir="${solr.install.dir:../../..}/contrib/extraction/lib" regex=".*\.jar" />

    <lib dir="${solr.install.dir:../../..}/dist/" regex="solr-cell-\d.*\.jar" />

    这里lib的元素dir,regex表示要指定lib的目录和匹配的表达式。solr.install.dir表示solrcore的安装目录。../代表跳转文件上一级。${solr.install.dir:../../..}其实就到了solr_4.10.3目录,这个目录里有contrib,bin,dist,docs,example。很明显,我们需要拷贝contrib和dist目录到我们制定的目录(不然依赖包找不到)。之前指定了solr_home为D:\develop\12-solr\solrhome,我们将contrib和dist复制到D:\develop\12-solr\下,修改D:\develop\12-solr\solrhome\collection1\conf\solrconfig.xml

    此时我们lib的dir需要修改前缀为${solr.install.dir:../..}

    datadir标签

    <dataDir>${solr.data.dir:}</dataDir> 是默认的配置,solr.data.dir:表示solrcore下。这里指定的是solrcore/data目录,如果需要配置就指定目录则在:后填写路径,一般我们不修改。

    requestHandler标签

    requestHandler请求处理器,定义了索引和搜索的访问方式,例如name="/update" class="solr.UpdateRequestHandler" 其实与servlet在web.xml中定义handlerMapping一样的。

    多solrcore配置

    配置多solrcore的好处。在进行集群时,必须配置多sorscore,每个sorscore之间是独立的,都可以单独的对外提供服务,不同的业务模块可以使用不同的sorscore来提供搜索和索引服务。

    多solrcore就是将solrcore复制到solrhome下,并修改core.properties设置唯一的name。

    Schema.xml

    在solrcore下的conf目录有schema.xml文件,主要配置了solrcore的一些数据信息,包括Field和FieldType的定义等信息。在solr中,Field和FieldType都需要先定义后使用。

    Field

    Field在solr中代表的意义就像是数据表里的字段。

    <Field name="??" type="?" indexed="??"  stored="??" required="??" multiValued="??" />

    name:指定域名称

    Type:指定域的类型(type需要定义,使用fieldType声明)

    Indexed: 是否索引

    Stored:是否存储

    Required:是否必须

    multiValued:是否多值(例如商品中的图片列表)

    dynamicField 动态域

    <dynamicField name="" type="" indexed="" stored="" />

    name:指定动态域的命名规则,一般情况下name是匹配的例如:*_random,将匹配后缀为_random的field。

    uniqueKey  指定唯一键

    <uniqueKey>id</uniqueKey>

    其中Field的name为id的域,必须设置required=true,在一个schema.xml文件中有且仅有一个唯一键。

    copyField 复制域

    就像管道一样,从source复制到dest里

    <copyField source="" dest="" />

    source: 要复制的源域的域名

    dest:目标域的域名

    dest所指定的目标域,必须设置multiValued="true"

    FieldType  定义域类型

    其中包含name,class,analyzer(分析器),tokenizer(分词器),Filter(指定过滤器)

    由于lucene支持英文和德语,对于中文的拆分,我们需要使用第三方的jar包,ikanalyzer就是一个常用的中文分词器。可以对一段中文进行文字划分。(ikanalyzer后续介绍)

    中文分词器ikanalyer配置

    ref: https://github.com/wks/ik-analyzer

    IKAnalyzer是一个开源的,基于Java卡发的轻量级中文分词工具包,从06年12月推出1.0版本开始,推出了3个大版本,最初它以Lucene为主体,集合词典分词和文法分析算法的中文分词组件。新版本IKAnalyzer3.0则采用了特有的"正向迭代最细粒度切分算法",具有83万字/秒的高速处理。

    针对Lucene全文搜索优化的查询分析器IKqueryParser 是值得推荐的,它引入了简单搜索表达式,采用歧义分析算法优化查询关键字的搜索排列组合,能极大提高Lucene检索的命中率。

    IKAnalyzer作者林良益(linliangyi2007@gmail.com) 项目网站为http://code.google.com/p/ik-analyzer

    maven工程的坐标为

    groupId:org.wltea.ik-analyzer

    artifactId:ik-analyzer

    version:3.2.8

    下载ikanalyer  个人选择的IK Analyzer 2012FF_hf1.zip解压后复制IkAanlyzer.cfg.xml,stopword.dic 到catalina_home/webapps\solr\WEB-INF\classes下。

    复制IKAnalyzer2012FF_u1.jar到catalina_home\webapps\solr\WEB-INF\lib

    配置FieldType ,修改对应的solrcore\conf 下的schema.xml

    添加<fieldType name="text_ik" class="solr.TextField">

    <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"></analyzer>

    </fieldType>

    在定义Field的时候就可以使用type="text_ik" 进行中文分词(假如定义了一个type="text_ik"的field名称为content_ik)。重启tomcat在solr的dashboard中,选择solrcore,展开Analysis ,选择Fieldname/FieldType 例如content_ik是type为text_ik的field。在Fileld Value(Index)里输入中文文字,然后再右侧点击Analyse Values就会返回输入的中文的分词结果。

    DataImport 插件

    在了解了solr相关的操作后,就开始应用了,这里还存在一个问题,数据库中的数据如何映射到solr中,solr提供了dataimport插件。在我们下载的资源包路径solr_4.10.3\dist下,拷贝solr-dataimporthandler-4.10.3.jar 到D:\develop\12-solr\contrib\dataimporthandler\lib 下(想想solrconfig.xml中的lib配置的路径),contrib没有dataimport需要我们手动建立。然后拷贝数据库(本地使用的mysql)的连接驱动包mysql-connector-java-5.*.jar 到contrib\db\lib下(没有文件夹就建立)。添加jar包后,需要让solrcore引用jar包,进入相关solrcore的conf目录,修改solrconfig.xml 添加<lib dir="??" regex=".*\.jar" />(这里不做说明,可参考其它的配置)

    配置requestHandler

    solrconfig.xml中,添加一个name="/dataimport"的requestHandler,可参考其它requestHandler

    例如<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataimportHandler" >

    <lst name="defaults"><str name="config">data-config.xml</str></lst>

    </requestHandler>

    上面的配置指定了dataimport的配置文件data-config.xml,位于solrconfig.xml同级目录下。

    <?xml version="1.0" encoding="UTF-8" ?>

    <dataConfig>

    <dataSource type="JdbcDataSource"

    driver="com.mysql.jdbc.Driver"

    url="jdbc:mysql://localhost:3306/solr"

    user="root"

    password="root"/>

    <document>

    <entity name="product" query="SELECT pid,name,catalog,catalog_name,price,description,picture FROM products">

    <field column="pid" name="id"/>

    <field column="name" name="product_name"/>

    <field column="catalog" name="product_catalog"/>

    </entity>

    </document>

    </dataConfig>

    重启tomcat访问solr的dashboard在相关的solrcore中点击Dataimport就可以查看到界面,

    执行execute就可以将数据库的数据按照data-config.xml的配置导入到solr中。

    相关文章

      网友评论

          本文标题:Solr 环境搭建(windows)

          本文链接:https://www.haomeiwen.com/subject/nebnottx.html