美文网首页
Solr索引效率的提升和实践

Solr索引效率的提升和实践

作者: 明翼 | 来源:发表于2020-08-19 11:58 被阅读0次

    这是我2016年写的文章,发出来,做索引优化的朋友都可以参考下。

    名词解释

    Lucene:高性能的全文检索开源的Java工具包。
    Sorl :高性能的利用java开发的、开源的,基于Lucene的搜索服务器。
    非结构化数据:非结构化的没有固定格式的数据,比如一篇文章等。
    索引: 利用分词语言处理等手段得到的词与文档ID对应关系的数据结构。
    全文搜索:利用索引对非结构化数据进行搜索的方法。
    文档: 类似于数据库的一条记录,由多个字段组成,是建立索引的基础,索引中的分词是对文档中特定分词字段或不分词字段组成。

    一.背景介绍

    近段时间一直在研究solr和Lucene相关东西,主要是由于工作需要,需要利用Solr来进行日志搜索,但是Solr的建索引效率不是很高,难以满足工作中特定日志的性能要求,需要优化其建索引的性能。

    性能的具体要求是:
    1、在一台机器上普通硬盘的情况下,索引单个文档大小为200字节左右,需要达到的效率为5WTPS。
    2、具有良好的水平扩展性。
    3、对数据备份和数据丢失情况,要求不严格。
    对于以上的性能要求,设计出合理的架构,并建议验证实践。
    本文没有多少高深的技术,我也是个solr和Lucene的初学者,只是一个总结,希望起到抛砖引玉的作用。

    二.关于Solr建索引优化

    2.1 基本说明

    Solr是基于Lucene开发的,外层封装成Servlet形式,运行在Java的Web容器之中,提供索引分片、多副本等功能,并提供基于HTTP的API,方便调用。
    Solr的部署有单节点、Master-Salve模式、SolrCloud方式。
    SolrCloud具有良好的水平扩展性、自动容错性、自动负载均衡等特性,所以这次采用solrColud的方式进行索引的优化。
    SolrCloud中完整的索引为Collection,这是一个逻辑概念,一个Collection由多个shard组成,shard同样为逻辑概念,一个shard下面分为多个副本,每份基本相同,
    其中一份被选举为Leader,在建索引的时候通过Leader来新建索引。
    用图表示如下:

    image.png

    注:
    1、红色字体为Leader,只是个示意,实际上Leader是通过选举算法选取出来的。
    2、Collection的数据由shard1和shard2组成,每个shard的数据有两份,

    Collection_shard1_core1和Collection_shard1_core2,不同的版本名称可能有差异,对应是一个文件夹,里面保存的是索引的数据。

    2.2 建索引的过程

    为优化SolrColud的创建索引的效率,有必要对整个建索引的流程有所了解,建索引的流程如下,
    下面描述的建索引过程主要是最常见的通过SolrJ方式创建索引,不是采用DIH方式创建索引。


    solr建索引过程

    简单说明:
    1、客户端发送HTTP的POST请求到Solr服务器,报文格式一般有xml、json、javabin(只有java才支持,二进制结构)。
    2、Web服务器将请求派发到Solr的Web应用程序(Servlet)。
    3、Solr根据请求的URI中的Collection名字在solrConfig.xml找到注册的/update消息处理器;这是单个副本的情况下,如果多个副本的情况下,如果需要判断此副本是否为Leader,
    如果是非Leader,则需要将此文档发送给此副本的Leader,如果是非直接路由模式,Solr则会根据文档ID进行hash路由,路由到特定的Leader上。
    4、按照solrConfig.xml配置的请求处理链来处理索引,比如分词处理器等。
    5、写事务日志,当发送提交后正式将数据写入到存储(初始写入是内存,最后通过硬提交写入磁盘)中。
    6、返回写索引的结果。

    2.3 优化部分

    如果从整体考虑,可以考虑JVM调优,通过优化Web服务器性能,通过程序和配置等其他方面来建索引。
    目前通过JVM简单的调优和Web服务器优化,没有怎么研究,简单的试了下,性能改进不是很大。
    本文主要考虑程序和其他方面配置方面优化。

    2.3.1 报文批量大小优化

    首先考虑到我们的建索引是通过HTTP请求发送的,所以在网络速度固定的情况下,可以通过优化报文大小来提高性能。
    目前SolrJ的接口可以通过XMl、Javabin的方式来建索引,Javabin方式只有Java程序可以用,是一种特殊格式,在默认情况下使用Javabin方式的报文长度会比XML或JSON的格式要短,经过测试有部分性能。

    对于HTTP请求,我们可以通过控制批次大小,一次发送的合适报文批量大小来进行优化,通过实践,目前200个字节左右,发送批量为1W左右性能较高。

    2.3.2 路由模式优化

    我们注意到在Solr建索引的时候,判断文档属于哪个shard,需要通过文档ID经过hash算法,每个文档都要判断一次,这对于性能来说,是不利的,

    这种网络上也有朋友提倡通过直接路由的模式来进行建索引。需要注意的是:

    1. 索引要特殊方式通过以下URL新建:
     http://ip:port/solr/admin/collections?action=CREATE&name=implicit1&shards=shard1,shard2,shard3&router.name=implicit
    
    1. 在solr4.x版本中通过更改schemal.xml在5.x更改managed-schema文件添加以下字段定义:
     <field name="_route_" type="string"/>
    
    1. 在solrJ添加文档的时候需要加入以下字段:
    doc.addField("_route_","shard_x")
    

    后面的shard_x要替换为具体的shard,比如shard1或shard2等。通过直接路由模式,多线程的方式,在solr6.0版本的情况下,报文200个字节左右情况下,单节点的处理效率可以达到2.5WTPS,比solr4.9的单节点1W左右TPS有较大的提升。
    另外在测试中发现,报文大小在200个字节到1k字节之间对TPS的影响比较大,当然吞吐量在报文更大的时候会有更好效果。

    直接路由模式

    注意:
    1、通过这种方式建索引一定要采用多线程同时发送到多个shard中去,在SolrJ中采用HttpSolrServer(在5.x以后好像已经更改为HttpSolrClient) 方式进行发送。
    2、如果采用默认的路由模式采用的是CloudSolrServer进行发送,CloudSolrServer内部有负载均衡。
    3、采用直接路由的模式,如果其中一个shard所归属的节点挂掉的话,可能造成数据的丢失。CloudSolrServer可以通过zookeeper上的clusterstate.json 信息得到具体的shard的leader的具体url,直接将updateRequest提交给它,不用经过replica转发;另外还可以通过随时监听节点的状态变化,来保证可靠性,所以在性能准许的情况下还是不要采用直接路由的模式。

    2.3.3 参数调整优化

    solrconfig.xml参数优化调整:

    <ramBufferSizeMB>100</ramBufferSizeMB>
    <maxBufferedDocs>1000</maxBufferedDocs>
    

    以上两个参数为建索引的默认值,表示达到这个值的时候,才会将索引刷新到磁盘中去,可以适当调整测试。

    更改建索引线程数:

    <maxIndexingThreads>16</maxIndexingThreads>
    

    这个为建索引的线程数,目前在4.x版本中存在,6.0版本未发现此配置,建议设置为2*cpuNum,默认为8个。
    更改合并段参数参数:

    <mergeFactor>10</mergeFactor>
    

    索引的存储是按照段为单位的,这个参数决定了多少个段的时候,进行段合并。如果设置的大,则建索引的速度快,但是会导致索引文件多,查询速度慢;
    相反,如果设置小,则合并段的频率高,加快查询速度,降低了建立索引的速度。

    提交方式的优化:

    <autoCommit> 
    <maxTime>${solr.autoCommit.maxTime:150000}</maxTime> 
    <maxDocs>50000</maxDocs>
    <openSearcher>true</openSearcher> 
    </autoCommit>
    

    自动提交是指在有文档添加的情况下,经过特定的时间间隔或者添加了特定文档数后进行索引的自动提交,设置了自动提交可以在SolrJ的代码中不同提交,由于有更新日志的存在,即使在solr服务器出现问题的时候,仍然可以在重启solr服务器的时候自动恢复索引数据。

    另外参数openSearcher标示提交完成后是否重新打开搜索器,打开的会让索引可见。

    注意:自动提交和打开搜索器都是很消耗时间的操作,设置自动提交的文档数量过大的情况下,可能造成建索引的速率产生较大的浮动;

    自动调整在多并发的时候可以防止打开多个搜索器的问题。

    <autoSoftCommit> 
     <maxTime>${solr.autoSoftCommit.maxTime:60000}</maxTime>
     </autoSoftCommit>
    

    自动软提交,软提交不将索引刷新到存储,所以速率相对比较快,软提交可以让索引立刻可见,故此在要求索引近实时的情况下,可以设置软提交。

    注意如果在自动提交的情况下打开了搜索器,而且延迟时间可以接受的情况下,可以不是用自动软提交。

    三. 结合Lucene创建索引

    3.1 基本思路

    从底层来说,Solr利用的Lucene来进行创建索引的,所以在高版本的Solr中,只要是相同版本的Solr和Lucene其用的索引文件是兼容的,solrconfig.xml有使用Lucene的版本信息。
    所以提出一种方案,是否可以通过Lucene直接在Solr的目录中创建索引那,这样就可以减少网络的开销和HTTP服务的开销,直接写本地文件效率肯定是更高的。
    设想如下图所示:


    lucene提升solr性能

    1、客户端调用Lucene的API直接在本地的Solr的core的目录建索引。(Collection的一个shard的副本其实就是一个core文件)
    2、多个客户端,每个客户端对应一个shard副本,注意这里是一个shard只有一个副本的情况下,如果多个副本可能会导致数据不同步等问题。

    3.2 思路实践

    有了这个思路后,我就进行了实践,在不考虑数据备份的情况下和查询效率的情况下,优先考虑下建索引的效率,发现如下问题:
    1、首先Lucene为了防止同一个目录由多个程序在写,加了文件锁,也就是通过了一个叫write.lock的文件来控制防止重复写的问题。
    尝试解决:想到的第一个方法是看看有没有办法进行解锁,Lucene的4.9版本里面还真有个解锁的方法:

        if (IndexWriter.isLocked(index)) {
             try {
                IndexWriter.unlock(index);
             } catch (Exception e) {
                print_exception_trace(e);
             }
        }
    

    但是这个方法,调用起来看起来是成功的,但是在真正往solr的目录进行写索引的时候仍然报错。遂放弃。
    这个思路本来没错的,既然在solr的索引目录无法再创建Lucene的索引,那么可以考虑在其他的目录创建索引,然后再合并到solr的索引中去。

    合并lucene索引方式

    过程说明:

    1、 客户端程序调用lucene的API进行写索引。
    2、 索引写到特定的目录下。
    3、 调用solr的索引合并的HTTP接口,进行索引合并。
    4、 调用HTTP的合并结构后会将Lucene新建的索引目录合并到Solr的索引中去。

    注意:
    1、 这种合并的URL如下:

    http://ip:port/solr/admin/cores?action=mergeindexes&core=collection_shard1_replica1&indexDir=/parkfs01/aus/soft/luncenetmp/0
    

    2、 合并后的索引不是可见的,需要重新加载索引,或者重新做提交,提交时候需要打开搜索器使索引可见:

     http://ip:port/ solr/collection/update?commit=true&openSearcher=true 
    

    这里的collection要改成具体的collection名字。在单节点时候需要重新加载整个core,

    这个耗时很大,单节点仅仅提交,仍然搜索不到新添加的文档。

    3、如果在一个目录下进行新建Lucene索引,需要删除目录后以备下次重写。

    3.3 架构设计

    方案一:

    对于改造后的思路,设计了一种模式来进行建索引和提交并发进行,设计的结构如下:


    建索引架构改造

    说明:

    1、文档生成线程是根据数据生成所需要建索引的文档集合。
    2、文档集合生成后,发送到中间队列中去。
    3、有一个线程池,里面有N多线程,负责取文档集合,写入本地的索引文件夹中去,
    注意一个线程对应一个IndexWriter,一个IndexWriter对应一个文件夹。
    4、将需要合并的URL和提交的URL,发送到合并和提交队列中去。
    5、提交合并线程池取到需要合并的URL和提交的URL,先进行合并,然后提交。
    6、提交后,为了让文件夹再次循环利用需要删除文件夹内容。

    注意:
    1、solr的提交操作是很耗时的,在实际中,可以通过定时提交等手段进行进一步优化,不过solr本身设置的定时提交是无法起作用的。
    2、在删除目录数据之前对于4.x版本需要进行IndexWriter的删除索引动作,不删除索引直接写会存在段信息错误的问题。
    3、对于lucene的6.0版本,在删除文件的时候需要保存加锁文件write.lock;不能通过删除索引的方式进行索引信息的清理,不然数据仍然有问题,直接删除文件即可。
    4、以上设计经过测试,效率并没有高多少,也就是2WTPS左右。

    方案二:

    经过方案一的测试,发现速度并没有达到预期,方案一本想通过各个环节分离来达到并行的最大速率的目的,结果并不如意,经过分析后设计第二套方案,如图:

    方案二

    说明:
    1、根据要求生成文档。
    2、根据生成的文档列表生成可执行单元,可以执行单元的主要是创建IndexWriter和添加索引动作。
    3、将可行对象发送给线程池执行。
    4、执行完毕后将需要合并的索引目录和url发送到合并队列,合并队列数量达到一定数量后,执行合并索引动作和提交索引动作。
    5、索引线程池存在建立一定数量索引后,会关闭原来的IndexWriter,从新创建的目录生成新的IndexWriter。

    注意:
    1、因为IndexWriter是线程安全的,所以线程池可以共同操作同一个IndexWriter对象。
    2、在合并索引后,不能立刻删除目录,调用SOLR的合并索引的URL返回后,后台也有可能还在合并。
    3、经过测试在一个索引文档286个字节条件下,solr6.0版本,速率大概在4.7W和5.1W之间浮动。

    方案三:
    方案二测试的速率不太稳定,而且需要定时执行删除索引文件,提交和合并索引的速率还是比较慢。
    需要合并、提交索引和删除索引文件的根本在于Lucene的索引和solr的索引不在同一个目录,写同一个目录测试有问题的是4.9版本,所以想在solr6.0版本上测试试试。
    结果在solr6.0版本,通过直接程序删除write.lock后,可以将索引直接写到solr的索引目录里面去。但是如果让数据可见,就必须重新reload整个索引副本,在reload整个索引副本后,数据可以查询,但是由于我们删除了write.lock,导致了重新reload的solr日志存在部分错误信息。
    简单的测试结果如下:
    1、测试环境:2台机器,2个solr节点,实际使用一个节点,配置:64G内存、16CPU。
    2、线程个数:1个。
    3、按照报文大小分别为0.2k、1k、2k测试结果如下:

    序号 报文大小(字节) 速率(TPS) 吞吐量(MB/s)
    1 286 51088 9.9
    2 1228 37900 44
    3 2406 38000 84

    相关文章

      网友评论

          本文标题:Solr索引效率的提升和实践

          本文链接:https://www.haomeiwen.com/subject/tfzhjktx.html