rowkey是不可分割的字节数,按字典顺序由低到高存储在表中。一个空的数组用来标示表空间的起始或结尾。
大家需要对ascii码表有个清晰地认识。比如说为什么“19”的字典顺序是在“2”的前面呢。因为在hbase中rowkey是按照每一个字节的顺序比较的,先比较第一个字节,如果第一个字节小就不比较后面的,如果第一个字节相同比较第二个字节的大小,以此类推。所以“19”是两个字节,第一个字节的ascii码是49,比“2”的ascii的50小,所以字符串的19字典顺序比字符串小。
创建以19,2为start key 与end key的hbase表
Configuration conf = HBaseConfiguration.create();
conf.set("hbase.zookeeper.quorum", "m1,m2,m3");
conf.set("hbase.zookeeper.property.clientPort", "2181");
Connection connection = ConnectionFactory.createConnection(conf);
Admin admin = connection.getAdmin();
HTableDescriptor desc = new HTableDescriptor(TableName.valueOf(namespaceAsString + ":" + tableName));
desc.addFamily(new HColumnDescriptor(familyName));
String startKeyString="19";
String endKeyString="2";
byte[] startKey=startKeyString.getBytes();
byte[] endKey=endKeyString.getBytes();
byte[][] splitKeys = new byte[2][];
System.out.println(splitKeys.length);
splitKeys[0]=startKey;
splitKeys[1]=endKey;
admin.createTable(desc,splitKeys);
执行代码后,查看表的region分布为:
image.png
插入记录到表中的代码
Table table = connection.getTable(TableName.valueOf(namespaceAsString, tableName));
byte[] rowKey=Bytes.toBytes("3");
Put put = new Put(rowKey);
put.addColumn(Bytes.toBytes(familyName), Bytes.toBytes(columnName), rowKey);
table.put(put);
运行程序后,发现请求数变化,记录写入到start key为2的分区,而不是第一个region分区(start key为空,end key为19),因为记录存储在哪个region上,是根据记录的rowkey与分区的key进行按字节比较,决定最终存储位置。
“3“与”19“的第一个字符”1“比较,比”1“大,继续向接下来的key比较,”3“与”2“字符比较,比“2”大,所以存储在start key为“2”的region。
image.png
即使我们在创建分区指定的分区byte[]是乱序的,创建好表后table页面展示的region也是按照rowkey的字典序排列。
byte[][] splitKeys = new byte[4][];
System.out.println(splitKeys.length);
splitKeys[0]="a".getBytes();
splitKeys[1]="2".getBytes();
splitKeys[2]="19".getBytes();
splitKeys[3]="100".getBytes();
admin.createTable(desc,splitKeys);
创建好表后,各个region的信息,看到100排在了,19的前面,因为当rowkey比较完第一个字符后,会比较第二个字符,发现“0”小于“9”,所以"100"放在了"19"的前面。
image.png
网友评论