rowkey之字典序

作者: 仰望夜空一万次 | 来源:发表于2019-07-31 18:40 被阅读0次

rowkey之字典序
[HBase] - 理解 HBase Rowkey 字典排序
Hbase知识要点
Permutations
字典序
字典序
Hbase创建前缀布隆过滤器
HBase应用 | HBase性能优化
字典序算法笔记
Leetcode-Easy 953. Verifying an

rowkey是不可分割的字节数，按字典顺序由低到高存储在表中。一个空的数组用来标示表空间的起始或结尾。
大家需要对ascii码表有个清晰地认识。比如说为什么“19”的字典顺序是在“2”的前面呢。因为在hbase中rowkey是按照每一个字节的顺序比较的，先比较第一个字节，如果第一个字节小就不比较后面的，如果第一个字节相同比较第二个字节的大小，以此类推。所以“19”是两个字节，第一个字节的ascii码是49,比“2”的ascii的50小，所以字符串的19字典顺序比字符串小。

创建以19，2为start key 与end key的hbase表

 Configuration conf = HBaseConfiguration.create();
 conf.set("hbase.zookeeper.quorum", "m1,m2,m3");
 conf.set("hbase.zookeeper.property.clientPort", "2181");
 Connection connection = ConnectionFactory.createConnection(conf);
 Admin admin = connection.getAdmin();
 HTableDescriptor desc = new HTableDescriptor(TableName.valueOf(namespaceAsString + ":" + tableName));
 desc.addFamily(new HColumnDescriptor(familyName));
 String startKeyString="19";
 String endKeyString="2";
 byte[] startKey=startKeyString.getBytes();
 byte[] endKey=endKeyString.getBytes();
 byte[][] splitKeys = new byte[2][];
 System.out.println(splitKeys.length);
 splitKeys[0]=startKey;
 splitKeys[1]=endKey;
 admin.createTable(desc,splitKeys);

执行代码后，查看表的region分布为：

image.png

插入记录到表中的代码

 Table table = connection.getTable(TableName.valueOf(namespaceAsString, tableName));
 byte[] rowKey=Bytes.toBytes("3");
 Put put = new Put(rowKey);
 put.addColumn(Bytes.toBytes(familyName), Bytes.toBytes(columnName),  rowKey);
 table.put(put);

运行程序后，发现请求数变化，记录写入到start key为2的分区，而不是第一个region分区（start key为空，end key为19），因为记录存储在哪个region上，是根据记录的rowkey与分区的key进行按字节比较，决定最终存储位置。
“3“与”19“的第一个字符”1“比较，比”1“大，继续向接下来的key比较，”3“与”2“字符比较，比“2”大，所以存储在start key为“2”的region。

image.png

即使我们在创建分区指定的分区byte[]是乱序的，创建好表后table页面展示的region也是按照rowkey的字典序排列。

byte[][] splitKeys = new byte[4][];
System.out.println(splitKeys.length);
splitKeys[0]="a".getBytes();
splitKeys[1]="2".getBytes();
splitKeys[2]="19".getBytes();
splitKeys[3]="100".getBytes();
admin.createTable(desc,splitKeys);

创建好表后，各个region的信息，看到100排在了,19的前面，因为当rowkey比较完第一个字符后，会比较第二个字符，发现“0”小于“9”，所以"100"放在了"19"的前面。