美文网首页大规模分布式系统架构
谈大规模分布式系统的伸缩性架构

谈大规模分布式系统的伸缩性架构

作者: 什么也不懂888 | 来源:发表于2018-02-23 23:57 被阅读0次

要实现伸缩性架构,最重要的是使用集群,只要能做到向集群中加入服务器的数量和集群处理能力成正比,网站就能够无限增强处理能力。

一类是不同的服务器部署不同的服务实现伸缩性,这类问题通过纵向分离(分层后分离)和横向分离(业务分割后分离)实现;

另一类是集群中多台服务器部署相同的服务实现伸缩性,这类问题需要设计应用服务器和数据服务器的伸缩性。

一、应用服务器的伸缩性

应用服务器伸缩性的核心是无状态和负载均衡。

负载均衡服务器的分类:

a. Http重定向LB:需要两次请求;

b. DNSLB:DNS有缓存可能导致访问到下线的服务器;

c. 反向代理LB:成为所有请求和响应的中转站,压力大;

d. IPLB:通过修改数据包的IP地址实现;

e. 链路层LB:修改数据的MAC地址;

常用的LB算法有:轮询、加权轮询、随机、最少连接、源地址散列

二、缓存集群的伸缩性

1. Memcached模型

Memcached使用Key-Value形式存储和访问数据,在内存中维护一张巨大的HashTable,使得对数据查询的时间复杂度降低到O(1),保证了对数据的高性能访问。内存的空间总是有限的,当内存没有更多的空间来存储新数据时,memcached就会利用LRU算法将不常使用的数据淘汰掉。

Memcached本身并不是分布式缓存系统,它的分布式是由访问它的客户端实现的。

常用的路由算法有:

a. 余数Hash:算法简单,但一旦有服务器宕机或者要新增服务器就会导致缓存失效,引起雪崩。

b. 一致性Hash:服务器的增减不会引起雪崩效应,但当服务器节点较少时可能某台服务器压力过大。

c. 带虚拟节点的一致性Hash:每台服务器对应多个虚拟节点,避免某台服务器压力过大,寻址的过程多了一步从虚拟节点到服务器的映射。

三、数据服务器的伸缩性

1. 关系数据库集群的伸缩性

a. 读写分离:主server负责写入,并同步到从server,从server负责读取和数据分析。

要实现数据库的复制,需要开启Master服务器端的Binary log。数据复制的过程实际就是从slave从master获取binary log,然后再在本地镜像中执行日志中的操作。由于复制是异步的,因此只能保证最终一致性。

b. 数据分库

对ID按照表的数量取模,计算出数据存储在哪个数据库里。

c. 拆表

对ID按照表的数量取模,计算出数据存储在哪张表里。

常见的有Corba

2. Nosql集群的伸缩性

HBase的伸缩性依赖其可分裂的HRegion和可伸缩的HDFS实现。

HBase使用ColumnFamily。Hbase表的创建的时候就必须指定列族。

Rowkey的概念和mysql中的主键是完全一样的,Rawkey的设计。

TimeStamp对Hbase来说至关重要,因为它是实现Hbase多版本的关键。在Hbase中使用不同的timestame来标识相同rowkey行对应的不同版本的数据。

主要组建包括ZooKeeper、HMaster、HRegionServer、HRegion。

ZooKeeper的主要作用:

a. 分布式锁:选举记录主HMaster;

b. 集群管理:监控HRegionServer的状态,在HRegionServer故障时通知HMaster重新分配HRegion;

c. 通过Zoopkeeper存储元数据的统一入口地址。

HRegionServer:分布多个HRegion。

HMaster的主要作用:

a. 为RegionServer分配Region,当收到ZooKeeper的HRegionServer失效的通知时为HRegion重新分配HRegionServer;

b. 维护HRegionServer集群的负载均衡;

c. 当RegionSever失效的时候,协调对应Hlog的拆分。

HRegionServer的主要作用:

a. 处理来自客户端的读写请求;

b. 负责和底层HDFS的交互,存储数据到HDFS;

c. 负责Region变大以后的拆分;

d. 负责Storefile的合并工作。

寻址

第1步:Client请求ZK获取.META.所在的RegionServer的地址。

第2步:Client请求.META.所在的RegionServer获取访问数据所在的RegionServer地址,client会将.META.的相关信息cache下来,以便下一次快速访问。

第3步:Client请求数据所在的RegionServer,获取所需要的数据。

写操作

上图可以看出氛围3步骤:

Hbase的写入流程如下图所示:

第1步:Client获取数据写入的Region所在的RegionServer

第2步:请求写Hlog

第3步:请求写MemStore

只有当写Hlog和写MemStore都成功了才算请求写入完成。MemStore后续会逐渐刷到HDFS中。

HBase的伸缩性:

当表的数据量越来越大,Region越来越多的时候,只需要添加RegionServer,此时RegionServer向ZooKeeper写入节点,ZooKeeper通知HMaster为其分配HRegion。

HBase的可用性:

当某个HRegionServer异常时,ZooKeeper会监测到并通知HMaster,HMaster会将故障的RegionServer的Region重新分配给其他RegionServer,并通过Hlog将RegionServer的操作还原到新的RegionServer上。

HBase的高性能:

随着数据量增大,Region会越来越大,当Region的大小超过设定的阈值时会分裂,分裂后的Region可能位于同一个RegionServer,也可能位于不同的RegionServer。这就保证了Region不会太大以至于影响读写性能。

相关文章

网友评论

    本文标题:谈大规模分布式系统的伸缩性架构

    本文链接:https://www.haomeiwen.com/subject/zwpfxftx.html