美文网首页数客联盟我爱编程
solr批量生成索引踩坑

solr批量生成索引踩坑

作者: tinyMonkey | 来源:发表于2018-02-27 16:05 被阅读168次

    solr提供了一种批量生成索引的方式,各种文档中都有提到。由于有这个需求,所以笔者开始了艰辛的踩坑过程。

    Lucene版本问题

    其实Lucene版本问题也是始发因素,之前使用hbase-indexer去批量创建索引,hbase-indexer使用的solr客户端版本是solr-6.4.1,笔者的solr版本是solr-6.3.0,没有任何问题。但是后来使用了HDP,而HDP自带的solr版本solr-5.5.2,在进行索引合并操作时,出现了一个lucene版本问题:

    18/02/11 16:38:06 ERROR mr.GoLive: Error sending live merge command
    java.util.concurrent.ExecutionException: org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException: Error from server at http://10.1.236.66:8886/solr: Could not load codec 'Lucene62'.  Did you forget to add lucene-backward-codecs.jar?
        at java.util.concurrent.FutureTask.report(FutureTask.java:122)
        at java.util.concurrent.FutureTask.get(FutureTask.java:192)
        at com.ngdata.hbaseindexer.mr.GoLive.goLive(GoLive.java:130)
        at com.ngdata.hbaseindexer.mr.HBaseMapReduceIndexerTool.runIndexingPipeline(HBaseMapReduceIndexerTool.java:541)
        at com.ngdata.hbaseindexer.mr.HBaseMapReduceIndexerTool.run(HBaseMapReduceIndexerTool.java:241)
        at com.ngdata.hbaseindexer.mr.HBaseMapReduceIndexerTool.run(HBaseMapReduceIndexerTool.java:120)
        at com.ngdata.hbaseindexer.mr.HBaseMapReduceIndexerTool.run(HBaseMapReduceIndexerTool.java:110)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:76)
        at com.ngdata.hbaseindexer.mr.HBaseMapReduceIndexerTool.main(HBaseMapReduceIndexerTool.java:104)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.hadoop.util.RunJar.run(RunJar.java:233)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:148)
    Caused by: org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException: Error from server at http://10.1.236.66:8886/solr: Could not load codec 'Lucene62'.  Did you forget to add lucene-backward-codecs.jar?
        at org.apache.solr.client.solrj.impl.HttpSolrClient.executeMethod(HttpSolrClient.java:593)
        at org.apache.solr.client.solrj.impl.HttpSolrClient.request(HttpSolrClient.java:262)
        at org.apache.solr.client.solrj.impl.HttpSolrClient.request(HttpSolrClient.java:251)
        at org.apache.solr.client.solrj.SolrRequest.process(SolrRequest.java:149)
        at org.apache.solr.client.solrj.SolrRequest.process(SolrRequest.java:166)
        at com.ngdata.hbaseindexer.mr.GoLive$1.call(GoLive.java:100)
        at com.ngdata.hbaseindexer.mr.GoLive$1.call(GoLive.java:89)
        at java.util.concurrent.FutureTask.run(FutureTask.java:266)
        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
        at java.util.concurrent.FutureTask.run(FutureTask.java:266)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
        at java.lang.Thread.run(Thread.java:745)
    18/02/11 16:38:06 INFO mr.GoLive: Live merging of index shards into Solr cluster took 0.894 secs
    

    这个错误提示去查看在solr中是否有lucene-backward-codecs.jar,而solr中对应的jar包版本为:lucene-backward-codecs-5.5.2.jar

    然后猜想应该可以通过某个可以设置lucene版本,寻寻觅觅了很久后找到了一个唯一配置lucene版本的地方,solrconfig.xml文件中包含如下:

     <luceneMatchVersion>5.5.2</luceneMatchVersion>
    

    但是,修改之后发现并没有什么用处;进一步查看solr源码,发现了原因:

    • solr在接收到合并索引的请求后解析lucene索引过程中发现版本是Lucene62,而其内部查找对应版本的codec时找不到一致的版本
    • codec查找版本是通过访查看SPI 实现,而实现配置如下:
      luceneCodec配置
      由此可见solr并不支持多版本的索引合并,所以放弃了使用hbase-indexer作为统一的程序生成索引并向solr合并索引的方案。转而通过自己开发程序读取csv文件生成索引。

    solr的mapreduce包不支持csv文件

    solr自己提供了批量生成索引的类org.apache.solr.hadoop.MapReduceIndexerTool。但是笔者发现默认的Mapper类是org.apache.solr.hadoop.morphline.MorphlineMapper,它是用来解析单独的文本文件的,明显不满足需求。并且直接传递mapper类给MapReduceIndexerTool的方法也行不通(需要传递各种参数),所以只能自定义了一个Mapper,并同时重新实现MapReduceIndexerTool.java。

    MapReduceIndexerTool对solr的客户端代码有依赖

    本来以为对于不同版本的solr,只需要改动pom.xml文件中对solr的依赖就可以解决codec不同版本的问题,但是MapReduceIndexerTool中使用的solrj版本的内容不一致,所以不可避免的需要两套程序来做两个solr版本的批量索引生成。

    找不到solr config文件夹

    solr 批量创建索引的过程,是通过mapper把数据生成solr doc,而SolrReducer.java也只是把solr doc序列化,而真正的生成索引是在org.apache.solr.hadoop.SolrOutputFormat输出文件的过程中,生成一个内置的EmbeddedSolrServer建立索引,但是在生成EmbeddedSolrServer过程中,发现了solr config文件找不到。原因出在org.apache.solr.hadoop.SolrRecordWriter中:

      public static EmbeddedSolrServer createEmbeddedSolrServer(Path solrHomeDir, FileSystem fs, Path outputShardDir)
          throws IOException {
    
        ...
           SolrCore core = container.create("core1", ImmutableMap.of(CoreDescriptor.CORE_DATADIR, dataDirStr));
        ...
     
      }
    

    这里的create方法会自动去dataDirStr/core1下寻找solr collection的配置文件,而去zookeeper拉取的配置文件是放在dataDirStr下的,所以无法找到。怀疑作者在测试过程中使用的是写死的solrHomeDir,而这里存储着对应的core1,因此修改代码如下,问题解决。

      public static EmbeddedSolrServer createEmbeddedSolrServer(Path solrHomeDir, FileSystem fs, Path outputShardDir)
          throws IOException {
    
        ...
           SolrCore core = container.create("core1", Paths.get(solrHomeDir.toString()), ImmutableMap.of(CoreDescriptor.CORE_DATADIR, dataDirStr));
        ...
      }
    

    ⚠️:以上是solr-5.5.2 版本的代码,对于solr-6.3.0同样的问题也存在,只不过报错不一致

    TreeMerge过程LockFactory问题

    生成索引的过程中如果包含TreeMerge过程(第一次reduce时shard个数少于reduce个数,需要经过第二次的索引合并工作),会引发锁竞争的问题。可以修改org.apache.solr.hadoop.TreeMergeOutputFormat类中directoty生成方式来解决问题。

              Directory mergedIndex = new HdfsDirectory(workDir, NoLockFactory.INSTANCE, context.getConfiguration(), HdfsDirectory.DEFAULT_BUFFER_SIZE);
    //        Directory mergedIndex = new HdfsDirectory(workDir, context.getConfiguration());
        
    

    生成的索引未合并

    如下图所示,对同一份数据进行4次批量索引操作,最终在hdfs上显示的索引文件如下,可以发现未进行合并索引操作。而进行检索时会检索出同样ID的四条数据。
    ⚠️因此,批量索引操作适合增量索引或者全量索引,但是不适合批量跟新索引。

    drwxr-xr-x   - infra-solr hdfs          0 2018-01-31 10:49 /user/infra-solr/mrsolr/core_node5
    drwxr-xr-x   - infra-solr hdfs          0 2018-01-31 10:49 /user/infra-solr/mrsolr/core_node5/data
    drwxr-xr-x   - infra-solr hdfs          0 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index
    -rwxr-xr-x   3 infra-solr hdfs        100 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7.fdt
    -rwxr-xr-x   3 infra-solr hdfs         83 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7.fdx
    -rwxr-xr-x   3 infra-solr hdfs        244 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7.fnm
    -rwxr-xr-x   3 infra-solr hdfs        489 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7.si
    -rwxr-xr-x   3 infra-solr hdfs        110 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7_Lucene50_0.doc
    -rwxr-xr-x   3 infra-solr hdfs        178 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7_Lucene50_0.tim
    -rwxr-xr-x   3 infra-solr hdfs        102 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7_Lucene50_0.tip
    -rwxr-xr-x   3 infra-solr hdfs         73 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7_Lucene54_0.dvd
    -rwxr-xr-x   3 infra-solr hdfs        118 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7_Lucene54_0.dvm
    -rwxr-xr-x   3 infra-solr hdfs        100 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8.fdt
    -rwxr-xr-x   3 infra-solr hdfs         83 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8.fdx
    -rwxr-xr-x   3 infra-solr hdfs        496 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8.fnm
    -rwxr-xr-x   3 infra-solr hdfs        489 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8.si
    -rwxr-xr-x   3 infra-solr hdfs        110 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8_Lucene50_0.doc
    -rwxr-xr-x   3 infra-solr hdfs        244 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8_Lucene50_0.tim
    -rwxr-xr-x   3 infra-solr hdfs        148 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8_Lucene50_0.tip
    -rwxr-xr-x   3 infra-solr hdfs         82 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8_Lucene54_0.dvd
    -rwxr-xr-x   3 infra-solr hdfs        179 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8_Lucene54_0.dvm
    -rwxr-xr-x   3 infra-solr hdfs        100 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9.fdt
    -rwxr-xr-x   3 infra-solr hdfs         83 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9.fdx
    -rwxr-xr-x   3 infra-solr hdfs        496 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9.fnm
    -rwxr-xr-x   3 infra-solr hdfs        489 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9.si
    -rwxr-xr-x   3 infra-solr hdfs        110 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9_Lucene50_0.doc
    -rwxr-xr-x   3 infra-solr hdfs        244 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9_Lucene50_0.tim
    -rwxr-xr-x   3 infra-solr hdfs        148 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9_Lucene50_0.tip
    -rwxr-xr-x   3 infra-solr hdfs         82 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9_Lucene54_0.dvd
    -rwxr-xr-x   3 infra-solr hdfs        179 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9_Lucene54_0.dvm
    -rwxr-xr-x   3 infra-solr hdfs        100 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a.fdt
    -rwxr-xr-x   3 infra-solr hdfs         83 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a.fdx
    -rwxr-xr-x   3 infra-solr hdfs        496 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a.fnm
    -rwxr-xr-x   3 infra-solr hdfs        489 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a.si
    -rwxr-xr-x   3 infra-solr hdfs        110 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a_Lucene50_0.doc
    -rwxr-xr-x   3 infra-solr hdfs        244 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a_Lucene50_0.tim
    -rwxr-xr-x   3 infra-solr hdfs        148 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a_Lucene50_0.tip
    -rwxr-xr-x   3 infra-solr hdfs         82 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a_Lucene54_0.dvd
    -rwxr-xr-x   3 infra-solr hdfs        179 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a_Lucene54_0.dvm
    -rwxr-xr-x   3 infra-solr hdfs        289 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/segments_b
    -rwxr-xr-x   3 infra-solr hdfs        351 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/segments_c
    
    

    相关文章

      网友评论

        本文标题:solr批量生成索引踩坑

        本文链接:https://www.haomeiwen.com/subject/kfhpzxtx.html