自定义Spark Partitioner提升es-hadoop

作者: 祝威廉 | 来源:发表于2016-04-12 22:01 被阅读3136次

自定义Spark Partitioner提升es-hadoop
Spark的分区和自定义分区器的方法
ES-HADOOP配置
解决Spark数据倾斜(一) 分散同一Task的不同Key
解决Spark数据倾斜(一) 分散同一Task的不同Key
Spark partitioner
Partitioner与自定义Partitioner
Partitioner与自定义Partitioner
Partitioner与自定义Partitioner
Spark Partitioner 源码分析

前言

之前写过一篇文章，如何提高ElasticSearch 索引速度。除了对ES本身的优化以外，我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强，cpu密集型的很适合。这篇文章涉及的调整也是对SparkES 多维分析引擎设计中提及的一个重要概念“shard to partition ,partition to shard ” 的实现。不过目前只涉及到构建索引那块。

问题描述

当你bulk数据到集群，按照ElasticSearch Bulk 源码解析所描述的:

接着通过executeBulk方法进入原来的流程。在该方法中，对bulkRequest.requests 进行了两次for循环。

第一次判定如果是IndexRequest就调用IndexRequest.process方法，主要是为了解析出timestamp,routing,id,parent 等字段。

第二次是为了对数据进行分拣。大致是为了形成这么一种结构：

第二次就是对提交的数据进行分拣，然后根据route/_id 等值找到每个数据所属的Shard，最后将数据发送到对应Shard所在的Node节点上。

然而这导致了两个问题：

ES Node之间会形成N*N个连接，消耗掉过多的bulk线程
出现了很多并不需要的网络IO

所以我们希望能够避免这种情况。

Spark Partition to ES Shard

我们希望能够将分拣的逻辑放到Spark端，保证Spark 的Partition 和ES的Shard 一一对应，并且实现特定的Partitoner 保证数据到达ES都会被对应的Shard所在的节点直接消费，而不会再被转发到其他节点。
经过我的实际测试，做了该调整后，写入QPS有两倍以上的提升

理论基础

这里的理论基础自然是es-hadoop项目。

类的调用路径关系为：

EsSpark -> 
     EsRDDWriter -> 
           RestService -> 
                  RestRepository -> 
                            RestClient ->
                                NetworkClient -> 
                                        CommonsHttpTransport

简单介绍下他们的作用：

EsSpark, 读取ES和存储ES的入口。通过隐式转换，会显得更Spark.
EsRDDWriter ,调用RestService创建PartitionWriter,对ES进行数据写入
RestService，负责创建 RestRepository，PartitionWriter
RestRepository，bulk高层抽象，底层利用NetworkClient做真实的http请求，另外也维护Buffer相关的，典型比如积攒了多少条，多少M之后进行flush等。
NetworkClient 对 CommonsHttpTransport的封装，主要添加了一些节点校验功能。
CommonsHttpTransport 你可以认为是对HttpClient的一个封装

原来我以为需要对es-hadoop项目的源码进行修改才能实现前面提到的逻辑。事实上基于es-hadoop很容易实现上面提到的需求。

我们现在解释下为什么不需要修改源码。

在RestService类里，构建RestRepository的时候，会判定是多索引还是单索引。对应代码如下：

RestRepository repository = (iformat.hasPattern() ?
 initMultiIndices(settings, currentSplit, resource, log) : 
initSingleIndex(settings, currentSplit, resource, log));

这里我们只解析单索引部分代码，在对应的initSingleIndex方法里有如下代码：

int bucket = currentInstance % targetShards.size();
Shard chosenShard = orderedShards.get(bucket);
Node targetNode = targetShards.get(chosenShard);

先简要说明下几个参数变量。

targetShards 是索引所有的主分片到对应Node节点的映射。
orderedShards 则是根据shardId 顺序排序Shard集合
currentInstance 是partitionId

因为我们已经通过partitioner 将partitionId 转化为shardId，
,也就是partitionId X 里的数据，都是属于shardId 为X。也就是说currentInstance == partitionId == shardId。
下面是我们推导出来的关系：

currentInstance < targetShards.size()
bucket == currentInstance == partitionId == shardId
targetNode 持有ShardId=currentInstance 的Primary Shard

所以这段代码实际完成了partitionId 到 targetNode的映射关系。

ESShardPartitioner 实现

涉及到这块的主要有 es-hadoop 的mr以及 spark模块。在mr模块里包含了ES的分片规则实现。 spark 模块则包含ESShardPartitioner类。

代码如下：

package org.elasticsearch.spark
import ....
class ESShardPartitioner(settings:String) extends Partitioner {
      protected val log = LogFactory.getLog(this.getClass())
      
      protected var _numPartitions = -1 
      
      override def numPartitions: Int = {   
        val newSettings = new PropertiesSettings().load(settings)
        val repository = new RestRepository(newSettings)
        val targetShards = repository.getWriteTargetPrimaryShards(newSettings.getNodesClientOnly())
        repository.close()
        _numPartitions = targetShards.size()
        _numPartitions
      }

      override def getPartition(key: Any): Int = {
        val shardId = ShardAlg.shard(key.toString(), _numPartitions)
        shardId
      }
}

public class ShardAlg {
    public static int shard(String id, int shardNum) {
        int hash = Murmur3HashFunction.hash(id);
        return mod(hash, shardNum);
    }

    public static int mod(int v, int m) {
        int r = v % m;
        if (r < 0) {
            r += m;
        }
        return r;
    }
}

使用方式如下：


......partitionBy(new ESShardPartitioner(settings)).foreachPartition { iter =>
      try {
        val newSettings = new PropertiesSettings().load(settings)
        //创建EsRDDWriter
        val writer = EsRDDCreator.createWriter(newSettings.save())
        writer.write(TaskContext.get(), iter.map(f => f._2))        
      }

不过这种方式也是有一点问题，经过partition 后，Spark Partition Num==ES Primary Shard Num，这样会使得Spark写入并发性会受到影响。

这个和Spark Streaming 里KafkaRDD 的partition数受限于Kafka Partition Num 非常类似。我之前也对这个做了扩展，是的多个Spark Partition 可以映射到同一个Kafka Partition.

所以这里有第二套方案：

修改ESShardPartitioner，可以让多个分区对应一个Shard,并且通过一个Map维护这个关系
每个分区通过EsRDDWriter指定shardId进行写入。

第二点可能需要修改es-hadoop源码了，不过修改也很简单，通过settings传递shardId,然后在RestService.initSingleIndex添加如下代码：

if(settings.getProperty(ConfigurationOptions.ES_BULK_SHARDID) != null){       
            targetNode = targetShards.get(orderedShards.get(Integer.parseInt(settings.getProperty(ConfigurationOptions.ES_BULK_SHARDID))));
        }

在创建EsRDDWriter时拷贝settings的副本并且加入对应的ConfigurationOptions.ES_BULK_SHARDID.

使用时类似下面这个例子：

//val settings = new SparkSettings(conf).save()
.partitionBy(new ESShardPartitioner(settings)).mapPartitionsWithIndex { (partitionIndex, iter) =>
      try {
      val writer = EsSpark.createEsRDDWriter[Map[String,String]](settings, resource)
       //shardToPartitions个 Spark partition 对应一个ES Shard
        val shardId = ESShardPartitioner.shardIdFromPartitionId(partionId, shardToPartitions)
       //强制该分片写入到特定的Shard里
        val stats = writer.writeToSpecificPrimaryShard(TaskContext.get(), shardId, iter.map(f => f._2))
        List(NewStats(stats.bulkTotalTime, stats.docsSent)).iterator
      } catch {

这样可以把一份数据切成多分，并发写入ES的某个Shard.

总结

将ES的计算外移到Spark在这个场景中还是比较容易的。下次我还会专门写篇文章，剖析es-hadoop的实现，以及一些关键参数，尤其是一些类的使用。方便我们对es-hadoop实现定制化修改。

自定义Spark Partitioner提升es-hadoop
前言之前写过一篇文章，如何提高ElasticSearch 索引速度。除了对ES本身的优化以外，我现在大体思路是尽...
Spark的分区和自定义分区器的方法
spark partitioner自定义分区一、Spark partition和block的区别分区也被称为分...
ES-HADOOP配置
参考使用 ES-Hadoop 将 Spark Streaming 流数据写入 ES
解决Spark数据倾斜(一) 分散同一Task的不同Key
分散同一Task的不同Key 本文结合实例分析了通过调整并行度和使用自定义Partitioner缓解Spark数据...
解决Spark数据倾斜(一) 分散同一Task的不同Key
分散同一Task的不同Key 本文结合实例分析了通过调整并行度和使用自定义Partitioner缓解Spark数据...
Spark partitioner
Partitioner.scala， Spark提供HashPartitioner和RangePartitione...
Partitioner与自定义Partitioner
通过前面的学习我们知道Mapper最终处理的键值对，是需要送到Reducer去合并的，合并...
Partitioner与自定义Partitioner
通过前面的学习我们知道Mapper最终处理的键值对，是需要送到Reducer去合并的，合并...
Partitioner与自定义Partitioner
通过前面的学习我们知道Mapper最终处理的键值对，是需要送到Reducer去合并的，合并...
Spark Partitioner 源码分析
Partitioner 首先RDD类型为K/V对的数据才会有分区器，用来确定数据按照Key值划分到哪一个分区，其定...

网友评论

king_wang:请问RestClient是如何保证数据到达ES都会被对应的Shard所在的节点直接消费的？我看bulk过程中并没有涉及到routing的内容。如果我想实现这个逻辑，那怎么根据shardId反向计算出routing值
f269f5e08ea1:val writer = EsRDDCreator.createWriter(newSettings.save()),大神，这里的EsRDDCreator怎么找不到？
val writer = EsSpark.createEsRDDWriter[Map[String,String]](settings, resource)，这里的EsSpark好像也没有createEsRDDWriter方法，难道是版本问题，我的是基于CDH5.10，Spark1.6，ES5.4.3,求指教？另外我参考你的方式，从HBase读取数据后写入ES使用：rdd.partitionBy(new ESShardPartitioner(settings)).saveToEsWithMeta("spark/docs")，效果比没有使用自定义分区快了三倍！求指教上面的问题，完善代码!
祝威廉:@uuehff 那些不存在的类是自己开发的。而且貌似新版本已经是这么做的了。
夜尽天明时:威廉大神，我现在在解决一个能够按时间分索引的问题，用的也是这个项目，我应该在那个点切入，目前是在提交job之前做了一些改动，你能给点更好的建议吗？
studyz:威廉大神能写一篇Es架构方面的文章吗？最近在学Es ，但是对框架整体没有把握。
祝威廉:@studyz ElasticSearch Rest/RPC 接口解析,ElasticSearch Aggregations 分析,如何提高ElasticSearch 索引速度涉及到了结构，查询聚合以及索引构建三部分。希望能对你有帮助。

自定义Spark Partitioner提升es-hadoop

前言

问题描述

Spark Partition to ES Shard

理论基础

ESShardPartitioner 实现

总结

相关文章

自定义Spark Partitioner提升es-hadoop

Spark的分区和自定义分区器的方法

ES-HADOOP配置

解决Spark数据倾斜(一) 分散同一Task的不同Key

解决Spark数据倾斜(一) 分散同一Task的不同Key

Spark partitioner

Partitioner与自定义Partitioner

Partitioner与自定义Partitioner

Partitioner与自定义Partitioner

Spark Partitioner 源码分析

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

ElasticSearch 深入

ElasticSearch

我爱编程

spark

Hadoop