美文网首页hbase
rowkey之字典序

rowkey之字典序

作者: 仰望夜空一万次 | 来源:发表于2019-07-31 18:40 被阅读0次

rowkey是不可分割的字节数,按字典顺序由低到高存储在表中。一个空的数组用来标示表空间的起始或结尾。
大家需要对ascii码表有个清晰地认识。比如说为什么“19”的字典顺序是在“2”的前面呢。因为在hbase中rowkey是按照每一个字节的顺序比较的,先比较第一个字节,如果第一个字节小就不比较后面的,如果第一个字节相同比较第二个字节的大小,以此类推。所以“19”是两个字节,第一个字节的ascii码是49,比“2”的ascii的50小,所以字符串的19字典顺序比字符串小。

创建以19,2为start key 与end key的hbase表

 Configuration conf = HBaseConfiguration.create();
 conf.set("hbase.zookeeper.quorum", "m1,m2,m3");
 conf.set("hbase.zookeeper.property.clientPort", "2181");
 Connection connection = ConnectionFactory.createConnection(conf);
 Admin admin = connection.getAdmin();
 HTableDescriptor desc = new HTableDescriptor(TableName.valueOf(namespaceAsString + ":" + tableName));
 desc.addFamily(new HColumnDescriptor(familyName));
 String startKeyString="19";
 String endKeyString="2";
 byte[] startKey=startKeyString.getBytes();
 byte[] endKey=endKeyString.getBytes();
 byte[][] splitKeys = new byte[2][];
 System.out.println(splitKeys.length);
 splitKeys[0]=startKey;
 splitKeys[1]=endKey;
 admin.createTable(desc,splitKeys);

执行代码后,查看表的region分布为:


image.png

插入记录到表中的代码

 Table table = connection.getTable(TableName.valueOf(namespaceAsString, tableName));
 byte[] rowKey=Bytes.toBytes("3");
 Put put = new Put(rowKey);
 put.addColumn(Bytes.toBytes(familyName), Bytes.toBytes(columnName),  rowKey);
 table.put(put);

运行程序后,发现请求数变化,记录写入到start key为2的分区,而不是第一个region分区(start key为空,end key为19),因为记录存储在哪个region上,是根据记录的rowkey与分区的key进行按字节比较,决定最终存储位置。
“3“与”19“的第一个字符”1“比较,比”1“大,继续向接下来的key比较,”3“与”2“字符比较,比“2”大,所以存储在start key为“2”的region。


image.png

即使我们在创建分区指定的分区byte[]是乱序的,创建好表后table页面展示的region也是按照rowkey的字典序排列。

byte[][] splitKeys = new byte[4][];
System.out.println(splitKeys.length);
splitKeys[0]="a".getBytes();
splitKeys[1]="2".getBytes();
splitKeys[2]="19".getBytes();
splitKeys[3]="100".getBytes();
admin.createTable(desc,splitKeys);

创建好表后,各个region的信息,看到100排在了,19的前面,因为当rowkey比较完第一个字符后,会比较第二个字符,发现“0”小于“9”,所以"100"放在了"19"的前面。


image.png

ASCII Table参考

image.png

相关文章

  • rowkey之字典序

    rowkey是不可分割的字节数,按字典顺序由低到高存储在表中。一个空的数组用来标示表空间的起始或结尾。大家需要对a...

  • [HBase] - 理解 HBase Rowkey 字典排序

    我们都知道 HBase 的数据根据 rowkey 字典序排序的,理解这个概念很重要。 先理解名词 - 「字典序」 ...

  • Hbase知识要点

    hbase是列式数据库,rowkey是字典序的。每个列族是一个文件,将经常一起查询的列放到同一个列族中,减少文件的...

  • Permutations

    求一个数组的全排列。 遇到的问题: 1.忘记了字典序排列的定义;2.思考时间过长;3.没有及时找到全排列和字典序之...

  • 字典序

  • 字典序

    字典序 题目原链接:https://www.nowcoder.com/practice/6c9d8d2e426c4...

  • Hbase创建前缀布隆过滤器

    HBASE如何提升根据rowkey前缀扫描? 如果rowkey设计为: rowkey= #

  • HBase应用 | HBase性能优化

    一、Rowkey设计 1、Rowkey长度原则 Rowkey是一个二进制码流,Rowkey的长度建议设计在10-1...

  • 字典序算法笔记

    一、相关概念介绍 字典序字典序就是按照字典中出现的顺序对字符进行排序。 全排列给定多个字符,可以按照任意顺序进行排...

  • Leetcode-Easy 953. Verifying an

    题目描述 给定一组单词和字母顺序,然后判断单词之间是否按字典序顺序排序。 字典序的理解:设想一本英语字典里的单词,...

网友评论

    本文标题:rowkey之字典序

    本文链接:https://www.haomeiwen.com/subject/qhxxdctx.html