随着SpringBoot、SpringCloud的发布,微服务的思想越来越被重视,在短短的几年间,迅速发展并在各大公司付诸实施。微服务将一个大而全的服务分解为小而内聚的小服务,小服务之间通过通信来完成一项任务。而在多个服务并存的系统中,必须有一个服务能够协同各个服务工作,监控服务是否在线、任务是否执行完成等功能,Zookeeper正是这一服务的代表。
Zookeeper简介
Zookeeper是由雅虎研究院开发,用于协调Hadoop中各个子项目工作。由于Hadoop项目中经常以动物命名,而Zookeeper主要负责协同各个子项目工作,就像动物管理员一样管理者各个动物的行为,因此就以动物管理员(Zookeeper)命名。
Zookeeper是模仿Google的Chubby实现的,Chubby是非开源的Google自家使用的分布式协调工具。现在Zookeeper作为开源软件贡献给了Apache。
分布式协调技术
在多线程环境下,访问临界资源,需要加锁访问,保证多线程环境下的临界资源信息的正确性,在分布式环境下同样存在这样的问题,我们需要做好同步控制,保证临界资源被正确的访问,这就是分布式协调技术。Zookeeper通过主节点选取算法进行协调控制,只有主节点才能访问临界资源。下面分别看一下三种情境下的协调技术。
- 多线程
在多核处理器的今天,多线程程序对于我们来说并不陌生,为了让多线程程序正确的执行,我们需要通过锁机制来控制线程的执行。其中锁就是多线程环境中的协调技术。
在单机上启动一个服务进程,我们称为单机环境 - 多进程-同一机器
由于同一机器使用的是一个操作系统,操作系统能够对机器中各个资源进行管理,其中进程调度器可以协调各个进程的行为。多个进程间可以通过进程调度器同步访问临界资源(具体怎么实现,没有研究过),进程调度器就是多进程环境中的协调技术。
在单机上启动多个服务进程(相同的服务,服务与服务之间是有通信的,端口不能相同),我们称为伪分布式环境。
为什么是伪分布式环境了,如果这台机器故障,整个服务就不可用了,所以这不是真正意义上的分布式系统。 - 多进程-多台机器
如果将服务部署在多台服务器上,此时的环境多了一个不可靠的因素-网络,正是因为网络的不可靠,导致分布式协调技术难以实现。例如,请求一个服务失败,有可能是真失败了,也有可能是调用成功返回失败了。再例如,服务A先调用服务C,服务B后调用服务C,而服务B先于服务A到达了服务C。这都是在分布式环境中面临的问题。
Zookeeper通过主节点选取算法,选举主节点,被选举为主节点的服务才能访问临界资源,其他的访问节点等待,主节点访问完临界资源后,会从Zookeeper中释放掉该节点,导致等待的节点重新选举主节点,重复以上操作。从而达到同步访问临界资源的效果。
在多台机器上部署多个服务进程(一般一个机器部署一个服务,服务与服务之间存在通信,服务的端口需要一致,方便管理),我们称这种环境为分布式环境。
分布式环境分摊了服务宕机的风险,但是增加了服务管理的困难。
Zookeeper能做什么
- 分布式协调
Zookeeper最初设计的目的,也就是分布式锁的作用,同步的访问临界资源 - 服务发现
利用临时节点的性质,动态监测服务是否正常 - 通知机制
注册节点的通知,当节点状态或者信息发生变化时,会通知注册者。 - 配置维护
可以将全局的配置信息存到节点中,配合通知机制动态修改配置
Zookeeper的应用
- Dubbo
RPC中间件,zookeeper作为注册中心,用于服务的发现与订阅,动态监测provider的状态,并通知consumer - HBase
Hadoop的数据仓库,Zookeeper用于主节点的选取,主节点用于跟踪可用服务,保存集群元数据 - Kafka
分布式消息中间件,Zookeeper用于主题的发现 - Solr
检索系统,Zookeeper用于SolrCloud,存储各个服务的元数据 - Facebook Message
Zookeeper 用于服务发现,故障恢复等
Zookeeper不适合场景
Zookeeper不适合存储海量数据,每个节点的存储数据大小是有限制的,不能大于1M
网友评论