数据库分库分表

作者: 但莫 | 来源:发表于2017-06-18 22:12 被阅读207次

    一. 分表

    场景:对于大型的互联网应用来说,数据库单表的记录行数可能达到千万级甚至是亿级,并且数据库面临着极高的并发访问。采用Master-Slave复制模式的MySQL架构

    只能够对数据库的读进行扩展,而对数据库的写入操作还是集中在Master上,并且单个Master挂载的Slave也不可能无限制多,Slave的数量受到Master能力和负载的限制。
    因此,需要对数据库的吞吐能力进行进一步的扩展,以满足高并发访问与海量数据存储的需要!

    对于访问极为频繁且数据量巨大的单表来说,我们首先要做的就是减少单表的记录条数,以便减少数据查询所需要的时间,提高数据库的吞吐,这就是所谓的分表!

    在分表之前,首先需要选择适当的分表策略,使得数据能够较为均衡地分不到多张表中,并且不影响正常的查询!

    对于互联网企业来说,大部分数据都是与用户关联的,因此,用户id是最常用的分表字段。因为大部分查询都需要带上用户id,这样既不影响查询,又能够使数据较为均衡地
    分布到各个表中(当然,有的场景也可能会出现冷热数据分布不均衡的情况),如下图:

    假设有一张表记录用户购买信息的订单表order,由于order表记录条数太多,将被拆分成256张表。
    拆分的记录根据user_id%256取得对应的表进行存储,前台应用则根据对应的user_id%256,找到对应订单存储的表进行访问。
    这样一来,user_id便成为一个必需的查询条件,否则将会由于无法定位数据存储的表而无法对数据进行访问。

    注:拆分后表的数量一般为2的n次方,就是上面拆分成256张表的由来!

    假设order表结构如下:

    create table order_(  
     order_id bigint(20) primary key auto_increment,  
     user_id bigint(20),  
     user_nick varchar(50),  
     auction_id bigint(20),  
     auction_title bigint(20),  
     price bigint(20),  
     auction_cat varchar(200),  
     seller_id bigint(20),  
     seller_nick varchar(50)  
    )  
    

    那么分表以后,假设user_id = 257,并且auction_id = 100,需要根据auction_id来查询对应的订单信息,则对应的SQL语句如下:

    select * from order_1 where user_id=257 and auction_id = 100;  
    

    其中,order_1是根据257%256计算得出,表示分表之后的第一张order表。

    小结

    水平分表,能够降低单表的数据量,一定程度上可以缓解查询性能瓶颈。但本质上这些表还保存在同一个库中,所以库级别还是会有IO瓶颈。所以,一般不建议采用这种做法。

    二. 分库

    场景:分表能够解决单表数据量过大带来的查询效率下降的问题,但是,却无法给数据库的并发处理能力带来质的提升。面对高并发的读写访问,当数据库master
    服务器无法承载写操作压力时,不管如何扩展slave服务器,此时都没有意义了。
    因此,我们必须换一种思路,对数据库进行拆分,从而提高数据库写入能力,这就是所谓的分库!

    与分表策略相似,分库可以采用通过一个关键字取模的方式,来对数据访问进行路由,如下图所示:

    Paste_Image.png

    还是之前的订单表,假设user_id 字段的值为258,将原有的单库分为256个库,那么应用程序对数据库的访问请求将被路由到第二个库(258%256 = 2)。

    三. 分库分表

    场景:有时数据库可能既面临着高并发访问的压力,又需要面对海量数据的存储问题,这时需要对数据库既采用分表策略,又采用分库策略,以便同时扩展系统的
    并发处理能力,以及提升单表的查询性能,这就是所谓的分库分表。

    分库分表的策略比前面的仅分库或者仅分表的策略要更为复杂,一种分库分表的路由策略如下:

    1. 中间变量 = user_id % (分库数量 * 每个库的表数量)
    2. 库 = 取整数 (中间变量 / 每个库的表数量)
    3. 表 = 中间变量 % 每个库的表数量

    同样采用user_id作为路由字段,首先使用user_id 对库数量*每个库表的数量取模,得到一个中间变量;然后使用中间变量除以每个库表的数量,取整,便得到
    对应的库;而中间变量对每个库表的数量取模,即得到对应的表。

    分库分表策略详细过程如下:

    假设将原来的单库单表order拆分成256个库,每个库包含1024个表,那么按照前面所提到的路由策略,对于user_id=262145 的访问,路由的计算过程如下:

    1. 中间变量 = 262145 % (256 * 1024) = 1
    2. 库 = 取整 (1/1024) = 0
    3. 表 = 1 % 1024 = 1

    这就意味着,对于user_id=262145 的订单记录的查询和修改,将被路由到第0个库的第1个order_1表中执行!!!

    分库分表的难点

    垂直分库带来的问题和解决思路:

    跨库join的问题

    在拆分之前,系统中很多列表和详情页所需的数据是可以通过sql join来完成的。而拆分后,数据库可能是分布式在不同实例和不同的主机上,join将变得非常麻烦。而且基于架构规范,性能,安全性等方面考虑,一般是禁止跨库join的。那该怎么办呢?首先要考虑下垂直分库的设计问题,如果可以调整,那就优先调整。如果无法调整的情况,下面笔者将结合以往的实际经验,总结几种常见的解决思路,并分析其适用场景。

    全局表

    所谓全局表,就是有可能系统中所有模块都可能会依赖到的一些表。比较类似我们理解的“数据字典”。为了避免跨库join查询,我们可以将这类表在其他每个数据库中均保存一份。同时,这类数据通常也很少发生修改(甚至几乎不会),所以也不用太担心“一致性”问题。

    字段冗余

    这是一种典型的反范式设计,在互联网行业中比较常见,通常是为了性能来避免join查询。

    举个电商业务中很简单的场景:

    “订单表”中保存“卖家Id”的同时,将卖家的“Name”字段也冗余,这样查询订单详情的时候就不需要再去查询“卖家用户表”。

    字段冗余能带来便利,是一种“空间换时间”的体现。但其适用场景也比较有限,比较适合依赖字段较少的情况。最复杂的还是数据一致性问题,这点很难保证,可以借助数据库中的触发器或者在业务代码层面去保证。当然,也需要结合实际业务场景来看一致性的要求。就像上面例子,如果卖家修改了Name之后,是否需要在订单信息中同步更新呢?

    数据同步

    定时A库中的tab_a表和B库中tbl_b有关联,可以定时将指定的表做同步。当然,同步本来会对数据库带来一定的影响,需要性能影响和数据时效性中取得一个平衡。这样来避免复杂的跨库查询。笔者曾经在项目中是通过ETL工具来实施的。

    系统层组装

    在系统层面,通过调用不同模块的组件或者服务,获取到数据并进行字段拼装。说起来很容易,但实践起来可真没有这么简单,尤其是数据库设计上存在问题但又无法轻易调整的时候。

    具体情况通常会比较复杂。下面笔者结合以往实际经验,并通过伪代码方式来描述。

    简单的列表查询的情况

    Paste_Image.png

    伪代码很容易理解,先获取“我的提问列表”数据,然后再根据列表中的UserId去循环调用依赖的用户服务获取到用户的RealName,拼装结果并返回。

    有经验的读者一眼就能看出上诉伪代码存在效率问题。循环调用服务,可能会有循环RPC,循环查询数据库…不推荐使用。再看看改进后的:

    Paste_Image.png

    这种实现方式,看起来要优雅一点,其实就是把循环调用改成一次调用。当然,用户服务的数据库查询中很可能是In查询,效率方面比上一种方式更高。(坊间流传In查询会全表扫描,存在性能问题,传闻不可全信。其实查询优化器都是基本成本估算的,经过测试,在In语句中条件字段有索引的时候,条件较少的情况是会走索引的。这里不细展开说明,感兴趣的朋友请自行测试)。

    垂直分库总结和实践建议

    本篇中主要描述了几种常见的拆分方式,并着重介绍了垂直分库带来的一些问题和解决思路。读者朋友可能还有些问题和疑惑。

    1. 我们目前的数据库是否需要进行垂直分库?

    根据系统架构和公司实际情况来,如果你们的系统还是个简单的单体应用,并且没有什么访问量和数据量,那就别着急折腾“垂直分库”了,否则没有任何收益,也很难有好结果。

    切记,“过度设计”和“过早优化”是很多架构师和技术人员常犯的毛病。

    1. 垂直拆分有没有原则或者技巧?

    没有什么黄金法则和标准答案。一般是参考系统的业务模块拆分来进行数据库的拆分。比如“用户服务”,对应的可能就是“用户数据库”。但是也不一定严格一一对应。有些情况下,数据库拆分的粒度可能会比系统拆分的粒度更粗。笔者也确实见过有些系统中的某些表原本应该放A库中的,却放在了B库中。有些库和表原本是可以合并的,却单独保存着。还有些表,看起来放在A库中也OK,放在B库中也合理。

    如何设计和权衡,这个就看实际情况和架构师/开发人员的水平了。

    1. 上面举例的都太简单了,我们的后台报表系统中join的表都有n个了,

    分库后该怎么查?

    有很多朋友跟我提过类似的问题。其实互联网的业务系统中,本来就应该尽量避免join的,如果有多个join的,要么是设计不合理,要么是技术选型有误。请自行科普下OLAP和OLTP,报表类的系统在传统BI时代都是通过OLAP数据仓库去实现的(现在则更多是借助离线分析、流式计算等手段实现),而不该向上面描述的那样直接在业务库中执行大量join和统计。

    参考

    http://blog.csdn.net/winy_lm/article/details/50708493
    http://www.open-open.com/lib/view/open1473820694158.html#articleHeader4

    相关文章

      网友评论

        本文标题:数据库分库分表

        本文链接:https://www.haomeiwen.com/subject/jxtdqxtx.html