美文网首页Hadoop大数据Java 杂谈
HBase调优:预分区与行键设计

HBase调优:预分区与行键设计

作者: 杨赟快跑 | 来源:发表于2019-06-23 18:43 被阅读0次

HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断增加,当该region不能承受不断增长的数据量时,会进行split,分成2个region。在此过程中,会产生两个问题:
1.数据往一个region上写,会有写热点问题。
2.region split会消耗宝贵的集群I/O资源。

基于此我们可以控制在建表的时候,创建多个空region,并确定每个region的起始和终止rowkey,这样只要我们的rowkey设计能均匀的命中各个region,就不会存在写热点问题。自然split的几率也会大大降低。当然随着数据量的不断增长,该split的还是要进行split。像这样预先创建hbase表分区的方式,称之为预分区。

1.行键设计

hash(主键) + 年月日时(2019062315)
这里只取hash(主键)的前6位,使得行键的长度正好是16,也就是8的整数倍,在64位计算机中,效果最好。

2.标签设计

列族固定,只有一个,设为f,标签为分钟加上秒数:
分秒(5623)
如果需要精确到毫秒,可以为列族f设置有多个版本或者将标签设计为分秒毫秒(5623142)或者分秒.版本号(5623.1)

3.计算预分区的分割键

  1. 计算所有主键的前6位MD5值
  2. 利用TreeSet对MD5值进行排序
  3. 按分区的数量,通过均匀平分的方法,找出特定的分割键
  4. 注意:如果主键的数量很多,导致前6位MD5值不唯一,需要适当增大位数。

4.代码实现

import org.springframework.util.DigestUtils;
import java.util.Map;
import java.util.Set;
import java.util.TreeSet;
//计算前6位的MD5值
public static String hash(String key){
    return DigestUtils.md5DigestAsHex(key.getBytes()).substring(0, 6);
}
//计算预分区的分割键
public static String[] getSpiltKeys(int regionNum)
{
    if (regionNum < 2)
        return null;
    Set<String> set = new TreeSet<>();
    DCSPoint[] points = DCSPoint.values();
    for (DCSPoint point : points)
    {
        set.add(hash(point.getFullName()));
    }
    int size = set.size();
    if (size < points.length)
    {
        return null;
    }
    String[] array = new String[size];
    set.toArray(array);
    String[] keys = new String[regionNum-1];
    for (int i = 0; i < regionNum-1; ++i)
    {
        keys[i] = array[size/regionNum * (i+1)];
    }
    return keys;
}

5.预分区

一个regionserver可以管理的region数量和列族数量与每个列族缓存的大小有关,计算公式如下:

((RS memory) * (total memstore fraction)) / ((memstore size)*(families))

我这里只分了三个region,用hbase shell命令创建表,设置预分区数量为3

create 'DCS', 'f', SPLITS => ['541319','a49d81'] ;

下图中,可以看到,预分区以后,数据的读写访问请求数量均匀分布在3台RegionServer上,避免了热点问题。


预分区效果

相关文章

  • HBase调优:预分区与行键设计

    HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和end...

  • hbase gc调优(CMS与G1)

    hbase gc调优(CMS与G1) 一:hbase gc调优目的: 在HBase中,有两个在内存中的结构消费了绝...

  • Hbase调优

    对hbase调优首先需要对hbase架构有一个初步认知。 hbase写数据 在HBase 中无论是增加新行还是修改...

  • HBase(单机win10+WSL、集群独立安装)

    HBase的分区Region/RegionServer 设计与 Akka的分片 Region/ShardRegi...

  • HBase 行键设计

    HBase 有两种基本的键结构:行键(row key)和列键(column key)。两者都可以存储有意义的信息,...

  • HBase读写优化

    一个系统上线之后,开发和调优将一直贯穿系统的生命周期中,HBase也不列外。这里学习下HBase的调优 Hbase...

  • Hbase 调优

    阶段一:默认推荐配置 通过上文对各个GC参数的说明,可以轻松得出第一阶段推荐的参数设置如下,这样的设置基本适用于所...

  • HBASE调优

    备注: 文章来源引用"黑马大数据开发"通用调优 NameNode的元数据备份使用SSD 定时备份NameNode上...

  • HBase框架基础(五)

    * HBase框架基础(五) 本节主要介绍HBase中关于分区的一些知识。 * HBase的RowKey设计 我们...

  • Hbase中的存储概念

    数据行设计 Rowkey1. Rowkey :行键,这个概念是整个Hbase的核心,类似于MySQL主键的概念My...

网友评论

    本文标题:HBase调优:预分区与行键设计

    本文链接:https://www.haomeiwen.com/subject/wurwqctx.html