谈大规模分布式系统的伸缩性架构

作者: 什么也不懂888 | 来源:发表于2018-02-23 23:57 被阅读0次

谈大规模分布式系统的伸缩性架构
支付平台java架构师谈大规模高并发服务化系统设计经验
软件架构VII: 架构特征的范围
五分钟教会你分布式系统调用链监控
人人都是架构师：分布式系统架构落地与瓶颈突破
Hadoop-2.8.0 开发环境搭建（Mac）
阿里高级技术专家联合编写，分布式系统领域不能错过的经典著作
谈大规模分布式系统的高性能架构
Dapper，大规模分布式系统的跟踪系统
分布式系统认证方案

要实现伸缩性架构，最重要的是使用集群，只要能做到向集群中加入服务器的数量和集群处理能力成正比，网站就能够无限增强处理能力。

一类是不同的服务器部署不同的服务实现伸缩性，这类问题通过纵向分离（分层后分离）和横向分离（业务分割后分离）实现；

另一类是集群中多台服务器部署相同的服务实现伸缩性，这类问题需要设计应用服务器和数据服务器的伸缩性。

一、应用服务器的伸缩性

应用服务器伸缩性的核心是无状态和负载均衡。

负载均衡服务器的分类：

a. Http重定向LB：需要两次请求；

b. DNSLB：DNS有缓存可能导致访问到下线的服务器；

c. 反向代理LB：成为所有请求和响应的中转站，压力大；

d. IPLB：通过修改数据包的IP地址实现；

e. 链路层LB：修改数据的MAC地址；

常用的LB算法有：轮询、加权轮询、随机、最少连接、源地址散列

二、缓存集群的伸缩性

1. Memcached模型

Memcached使用Key-Value形式存储和访问数据，在内存中维护一张巨大的HashTable，使得对数据查询的时间复杂度降低到O(1)，保证了对数据的高性能访问。内存的空间总是有限的，当内存没有更多的空间来存储新数据时，memcached就会利用LRU算法将不常使用的数据淘汰掉。

Memcached本身并不是分布式缓存系统，它的分布式是由访问它的客户端实现的。

常用的路由算法有：

a. 余数Hash：算法简单，但一旦有服务器宕机或者要新增服务器就会导致缓存失效，引起雪崩。

b. 一致性Hash：服务器的增减不会引起雪崩效应，但当服务器节点较少时可能某台服务器压力过大。

c. 带虚拟节点的一致性Hash：每台服务器对应多个虚拟节点，避免某台服务器压力过大，寻址的过程多了一步从虚拟节点到服务器的映射。

三、数据服务器的伸缩性

1. 关系数据库集群的伸缩性

a. 读写分离：主server负责写入，并同步到从server，从server负责读取和数据分析。

要实现数据库的复制，需要开启Master服务器端的Binary log。数据复制的过程实际就是从slave从master获取binary log，然后再在本地镜像中执行日志中的操作。由于复制是异步的，因此只能保证最终一致性。

b. 数据分库

对ID按照表的数量取模，计算出数据存储在哪个数据库里。

c. 拆表

对ID按照表的数量取模，计算出数据存储在哪张表里。

常见的有Corba

2. Nosql集群的伸缩性

HBase的伸缩性依赖其可分裂的HRegion和可伸缩的HDFS实现。

HBase使用ColumnFamily。Hbase表的创建的时候就必须指定列族。

Rowkey的概念和mysql中的主键是完全一样的，Rawkey的设计。

TimeStamp对Hbase来说至关重要，因为它是实现Hbase多版本的关键。在Hbase中使用不同的timestame来标识相同rowkey行对应的不同版本的数据。

主要组建包括ZooKeeper、HMaster、HRegionServer、HRegion。

ZooKeeper的主要作用：

a. 分布式锁：选举记录主HMaster；

b. 集群管理：监控HRegionServer的状态，在HRegionServer故障时通知HMaster重新分配HRegion；

c. 通过Zoopkeeper存储元数据的统一入口地址。

HRegionServer：分布多个HRegion。

HMaster的主要作用：

a. 为RegionServer分配Region，当收到ZooKeeper的HRegionServer失效的通知时为HRegion重新分配HRegionServer；

b. 维护HRegionServer集群的负载均衡；

c. 当RegionSever失效的时候，协调对应Hlog的拆分。

HRegionServer的主要作用：

a. 处理来自客户端的读写请求；

b. 负责和底层HDFS的交互，存储数据到HDFS；

c. 负责Region变大以后的拆分；

d. 负责Storefile的合并工作。

寻址

第1步：Client请求ZK获取.META.所在的RegionServer的地址。

第2步：Client请求.META.所在的RegionServer获取访问数据所在的RegionServer地址，client会将.META.的相关信息cache下来，以便下一次快速访问。

第3步：Client请求数据所在的RegionServer，获取所需要的数据。

写操作

上图可以看出氛围3步骤：

Hbase的写入流程如下图所示：

第1步：Client获取数据写入的Region所在的RegionServer

第2步：请求写Hlog

第3步：请求写MemStore

只有当写Hlog和写MemStore都成功了才算请求写入完成。MemStore后续会逐渐刷到HDFS中。

HBase的伸缩性：

当表的数据量越来越大，Region越来越多的时候，只需要添加RegionServer，此时RegionServer向ZooKeeper写入节点，ZooKeeper通知HMaster为其分配HRegion。

HBase的可用性：

当某个HRegionServer异常时，ZooKeeper会监测到并通知HMaster，HMaster会将故障的RegionServer的Region重新分配给其他RegionServer，并通过Hlog将RegionServer的操作还原到新的RegionServer上。

HBase的高性能：

随着数据量增大，Region会越来越大，当Region的大小超过设定的阈值时会分裂，分裂后的Region可能位于同一个RegionServer，也可能位于不同的RegionServer。这就保证了Region不会太大以至于影响读写性能。

网友评论

大规模分布式系统架构

本文标题：谈大规模分布式系统的伸缩性架构

本文链接：https://www.haomeiwen.com/subject/zwpfxftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

谈大规模分布式系统的伸缩性架构

一、应用服务器的伸缩性

二、缓存集群的伸缩性

三、数据服务器的伸缩性

1. 关系数据库集群的伸缩性

2. Nosql集群的伸缩性

ZooKeeper的主要作用：

HMaster的主要作用：

HRegionServer的主要作用：

寻址

写操作

相关文章

谈大规模分布式系统的伸缩性架构

支付平台java架构师谈大规模高并发服务化系统设计经验

软件架构VII: 架构特征的范围

五分钟教会你分布式系统调用链监控

人人都是架构师：分布式系统架构落地与瓶颈突破

Hadoop-2.8.0 开发环境搭建（Mac）

阿里高级技术专家联合编写，分布式系统领域不能错过的经典著作

谈大规模分布式系统的高性能架构

Dapper，大规模分布式系统的跟踪系统

分布式系统认证方案

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大规模分布式系统架构