美文网首页Java产品经理架构师
如何实现分库分表插件

如何实现分库分表插件

作者: 清幽之地 | 来源:发表于2020-01-01 21:27 被阅读0次

    前言

    随着系统数据量的日益增长,在说起数据库架构和数据库优化的时候,我们难免会常常听到分库分表这样的名词。

    当然,分库分表有很多的方法论,比如垂直拆分、水平拆分;也有很多的中间件产品,比如MyCat、ShardingJDBC。

    根据业务场景选择合适的拆分方法,再选择一个熟悉的开源框架,就能帮助我们完成项目中所涉及到的数据拆分工作。

    本文并不打算就这些方法论和开源框架展开深入的探讨,笔者想讨论另外一个场景:

    如果系统中需要拆分的表并不多,只是1个或者少量的几个,我们是否值得引入一些相对复杂的中间件产品;特别是,如果我们对它们的原理不甚了解,是否有信心驾驭它们 ?

    基于此,如果你的系统中有少量的表需要拆分,也没有专门的资源去研究开源组件,那么我们可以自己来实现一个简单的分库分表插件;当然,如果你的系统比较复杂,业务量较大,还是采用开源组件或者团队自研组件来解决这事较为稳妥。

    一、原理

    分库分表这事说简单也简单,说复杂那也挺复杂...

    简单是因为它的核心流程比较明确。就是解析SQL语句,然后根据预先配置的规则,重写或路由到真实的数据库表中去;

    复杂在于,SQL语句复杂且灵活,比如分页、去重、排序、分组、聚合、关联查询等操作,如何正确的解析它们。

    所以就算是ShardingJDBC,在官网中也明确了支持项和不支持项。

    二、注解式配置

    相对于复杂的配置文件,我们采用较为轻便的注解式配置,它的定义如下:

    @Target({ElementType.TYPE})
    @Retention(RetentionPolicy.RUNTIME)
    @Documented
    public @interface Sharding {
        String tableName();     //逻辑表名
        String field();         //分片键
        String mode();          //算法模式
        int length() default 0; //分表数量
    }
    

    那么,在哪里使用它呢 ? 比如我们的用户表需要分表,那就在User这个实体对象上标注。

    @Data
    @Sharding(tableName = "user",field = "id",mode = "hash",length = 16)
    public class User {
        private Long id;
        private String name;
        private String address;
        private String tel;
        private String email;
    }
    

    这就说明了,我一共有 16 张用户表,根据用户ID,使用Hash算法来计算它的位置。

    当然,我们不止有Hash算法,还可以根据日期范围来定义。

    @Data
    @Sharding(tableName = "car",field = "creatTime",mode = "range")
    public class Car {
        private long id;
        private String number;
        private String brand;
        private String creatTime;
        private long userId;
    }
    

    三、分片算法

    在这里,笔者实现了两种分片方式,就是HashAlgorithm和RangeAlgorithm

    1、范围分片

    如果你的系统中有使用冷热数据分离,我们可以按照日期将不同月的数据分散到不同的表中。

    比如车辆的创建时间是2019-12-10 15:30:00,这条数据将会被分配到car_201912这张表中去。

    我们通过截取时间的年月部分,然后再加上逻辑表名即可。

    public class RangeAlgorithm implements Algorithm {
        @Override
        public String doSharding(String tableName, Object value,int length) {
            if (value!=null){
                try{
                    DateUtil.parseDateTime(value.toString());
                    String replace = value.toString().substring(0, 7).replace("-", "");
                    String newName = tableName+"_"+replace;
                    return newName;
                }catch (DateException ex){
                    logger.error("时间格式不符合要求!传入参数:{},正确格式:{}",value.toString(),"yyyy-MM-dd HH:mm:ss");
                    return tableName;
                }
            }
            return tableName;
        }
    }
    

    2、Hash分片

    在Hash分片算法中,我们可以先判断表的数量,是不是2的幂次方。如果不是,就通过算数方式获取下标,如果是呢,就通过位运算的方式获取下标。当然了,这是在HashMap源码中学到的哦。

    public class HashAlgorithm implements Algorithm {
        @Override
        public String doSharding(String tableName, Object value,int length) {
            if (this.isEmpty(value)){
                return tableName;
            }else{
                int h;
                int hash = (h = value.hashCode()) ^ (h >>> 16);
                int index;
                if (is2Power(length)){
                    index = (length - 1) & hash;
                }else {
                    index = Math.floorMod(hash, length);
                }
                return tableName+"_"+index;
            }
        }
    }
    

    四、拦截器

    配置和分片算法都有了,接下来就是重头戏了。在这里,我们使用Mybatis拦截器将它们派上用场。

    常年CRUD的我们,都知道一条业务SQL肯定逃不出它们的范围。其中,在业务上我们的删除功能一般都是逻辑删除,所以,基本上不会有DELETE操作。

    相较而言,新增和修改SQL都比较简单且格式固定,查询SQL往往比较灵活且复杂。所以,在这里笔者定义了两个拦截器。

    不过,在介绍拦截器之前,我们有理由要了解另外两个东西:SQL语法解析器和分片算法处理器。

    1、JSqlParser

    JSqlParser负责解析SQL语句,并转化为Java类的层次结构。我们可以先看个简单的例子来认识它。

    public static void main(String[] args) throws JSQLParserException {
    
        String insertSql = "insert into user (id,name,age) value(1001,'范闲',20)";
        Statement parse = CCJSqlParserUtil.parse(insertSql);
        Insert insert = (Insert) parse;
    
        String tableName = insert.getTable().getName();
        List<Column> columns = insert.getColumns();
        ItemsList itemsList = insert.getItemsList();
        System.out.println("表名:"+tableName+" 列名:"+columns+" 属性:"+itemsList);
    }
    输出: 表名:user 列名:[id, name, age] 属性:(1001, '范闲', 20)
    

    我们可以看到,JSqlParser可以解析出SQL的语法信息。相应的,我们也可以更改对象内容,从而达到修改SQL语句的目的。

    2、算法处理器

    我们的分片算法有多个,具体应该调用哪一个是在程序运行期来决定的。所以,我们使用一个Map先将算法注册起来,然后根据分片模式来调用它。这也是策略模式的体现。

    @Component
    public class AlgorithmHandler {
        private Map<String, Algorithm> algorithm = new HashMap<>();
        @PostConstruct
        public void init(){
            algorithm.put("range",new RangeAlgorithm());
            algorithm.put("hash",new HashAlgorithm());
        }
        public String handler(String mode,String name,Object value,int length){
            return algorithm.get(mode).doSharding(name, value,length);
        }
    }
    

    3、拦截器

    我们知道,MyBatis允许你在已映射语句执行过程中的某一点进行拦截调用。

    如果你对它的原理还不熟悉,那么可以先看看笔者的文章:Mybatis拦截器的原理

    整体来看,它的流程如下:

    • 通过Mybatis拦截待执行的SQL;
    • 通过JSqlParser解析SQL,获取逻辑表名等;
    • 调用分片算法获取真实表名;
    • 修改SQL,并修改BoundSql
    • Mybatis执行修改后的SQL,达成目的。

    比如,对于insert语句和update语句,它的核心代码如下:

    insert

    五、查询及分页

    事实上,新增和修改都比较简单,较为复杂的是查询语句。

    但是,我们的插件并不在于要满足所有的查询语句,而是可以根据真实的业务场景来扩展修改。

    不过分页功能基本上是逃不开的。拿PageHelper为例,它的原理也是通过Mybatis拦截器来实现的。如果它和我们的分表插件在一起,可能会产生冲突。

    所以在分表插件中,笔者也集成了分页功能,基本上和PageHelper一样,但并未直接使用它。另外,对于查询来说,在查询条件中是否带有分片键,也是很关键的地方。

    1、查询

    在范围算法中,在业务上我们要求只查询特定某一个月或者近几个月的数据即可;在Hash算法中,我们则要求每次都带有主键。

    但第二个条件往往不能成立,业务方也满足不了每次都必须带有主键。

    针对这种情况,我们只能遍历所有的表,查询符合条件的数据,然后再汇总返回;


    query

    这种方式的缺点显而易见,性能较差。还有一种方式就是可以将常用的查询条件与分片键建立映射关系,在查询时先根据查询条件找到分片键的字段值,然后再根据分片键查询。

    2、分页

    如上所言,插件中集成了分页功能,实现流程与PageHelper一样,但考虑到冲突,并未直接使用。

    page

    六、其他

    事实上,笔者在想本文的标题时,着实比较苦恼。因为分库分表在业界是一个词,但本文插件并不涉及分库,仅有的只是分表操作而已,不过本文的重点是思路,最终还是叫了分库分表,还请盆友们见谅,不要叫我标题党~

    由于篇幅所限,文中只有少量的代码,如果感兴趣的盆友可以去https://github.com/taoxun/sharding获取完整Demo。

    笔者的代码中,包含了一些测试用例和建表SQL,创建完表后直接运行项目即可。

    相关文章

      网友评论

        本文标题:如何实现分库分表插件

        本文链接:https://www.haomeiwen.com/subject/pobgoctx.html