美文网首页hbase
rowkey之字典序

rowkey之字典序

作者: 仰望夜空一万次 | 来源:发表于2019-07-31 18:40 被阅读0次

    rowkey是不可分割的字节数,按字典顺序由低到高存储在表中。一个空的数组用来标示表空间的起始或结尾。
    大家需要对ascii码表有个清晰地认识。比如说为什么“19”的字典顺序是在“2”的前面呢。因为在hbase中rowkey是按照每一个字节的顺序比较的,先比较第一个字节,如果第一个字节小就不比较后面的,如果第一个字节相同比较第二个字节的大小,以此类推。所以“19”是两个字节,第一个字节的ascii码是49,比“2”的ascii的50小,所以字符串的19字典顺序比字符串小。

    创建以19,2为start key 与end key的hbase表

     Configuration conf = HBaseConfiguration.create();
     conf.set("hbase.zookeeper.quorum", "m1,m2,m3");
     conf.set("hbase.zookeeper.property.clientPort", "2181");
     Connection connection = ConnectionFactory.createConnection(conf);
     Admin admin = connection.getAdmin();
     HTableDescriptor desc = new HTableDescriptor(TableName.valueOf(namespaceAsString + ":" + tableName));
     desc.addFamily(new HColumnDescriptor(familyName));
     String startKeyString="19";
     String endKeyString="2";
     byte[] startKey=startKeyString.getBytes();
     byte[] endKey=endKeyString.getBytes();
     byte[][] splitKeys = new byte[2][];
     System.out.println(splitKeys.length);
     splitKeys[0]=startKey;
     splitKeys[1]=endKey;
     admin.createTable(desc,splitKeys);
    

    执行代码后,查看表的region分布为:


    image.png

    插入记录到表中的代码

     Table table = connection.getTable(TableName.valueOf(namespaceAsString, tableName));
     byte[] rowKey=Bytes.toBytes("3");
     Put put = new Put(rowKey);
     put.addColumn(Bytes.toBytes(familyName), Bytes.toBytes(columnName),  rowKey);
     table.put(put);
    

    运行程序后,发现请求数变化,记录写入到start key为2的分区,而不是第一个region分区(start key为空,end key为19),因为记录存储在哪个region上,是根据记录的rowkey与分区的key进行按字节比较,决定最终存储位置。
    “3“与”19“的第一个字符”1“比较,比”1“大,继续向接下来的key比较,”3“与”2“字符比较,比“2”大,所以存储在start key为“2”的region。


    image.png

    即使我们在创建分区指定的分区byte[]是乱序的,创建好表后table页面展示的region也是按照rowkey的字典序排列。

    byte[][] splitKeys = new byte[4][];
    System.out.println(splitKeys.length);
    splitKeys[0]="a".getBytes();
    splitKeys[1]="2".getBytes();
    splitKeys[2]="19".getBytes();
    splitKeys[3]="100".getBytes();
    admin.createTable(desc,splitKeys);
    

    创建好表后,各个region的信息,看到100排在了,19的前面,因为当rowkey比较完第一个字符后,会比较第二个字符,发现“0”小于“9”,所以"100"放在了"19"的前面。


    image.png

    ASCII Table参考

    image.png

    相关文章

      网友评论

        本文标题:rowkey之字典序

        本文链接:https://www.haomeiwen.com/subject/qhxxdctx.html