CAP 理论

作者: wayyyy | 来源:发表于2021-04-27 23:06 被阅读0次

分布式理论：CAP是三选二吗？
ZooKeeper（六）-- CAP和BASE理论、ZAB协议
CAP 理论十二年回顾："规则"变了
架构师进阶实战随堂笔记三
《分布式技术原理与算法解析》学习笔记Day20
CAP理论
CAP理论
CAP 理论
CAP理论
CAP理论

CAP理论源自高可用、高扩展大型互联网系统的实践，强调在数据一致性（ACID）和服务可用性（BASE）之间权衡妥协。

CAP

一致性（Consistency）
指的是客户端每次读操作，不管访问哪个节点，要么读到的都是同一份最新写入的数据，要么读取失败。
可用性（Availability）
可用性说的是任何来自客户端的请求，不管访问哪个非故障节点，都能得到响应数据，但不保证是同一份最新数据。这个指标强调的是服务可用，但不保证数据正确。
分区容错性（Partition Tolerance）
当节点间出现任意数量的消息丢失或高延迟的时候，系统仍然在继续工作。也就是说，分布式系统在告诉访问本系统的客户端：不管我的内部出现什么样的数据同步问题，我会一直运行。这个指标，强调的是集群对分区故障的容错能力。

image.png

CAP 不可能三角

CAP 不可能三角说的是对于一个分布式系统而言，一致性（Consistency）、可用性（Availability）、分区容错性（Partition Tolerance）3 个指标不可兼得，只能在 3 个指标中选择 2 个。

CAP 不能三角最初是埃里克·布鲁尔（Eric Brewer）基于自己的工程实践，提出的一个猜想，后被赛斯·吉尔伯特（Seth Gilbert）和南希·林奇（Nancy Lynch）证明，证明过程可以参考论文《Brewer’s conjecture and the feasibility of consistent, available, partition-tolerant web services》

CAP 之间的取舍

如何使用 CAP 理论我们都知道，只要有网络交互就一定会有延迟和数据丢失，而这种状况我们必须接受，还必须保证系统不能挂掉。所以就像上面提到的，节点间的分区故障是必然发生的。

也就是说，分区容错性（P）是前提，是必须要保证的。现在就只剩下一致性（C）和可用性（A）可以选择了：

要么选择一致性，保证数据正确

当选择了一致性（C）的时候，一定会读到最新的数据，不会读到旧数据。
但如果因为消息丢失、延迟过高发生了网络分区，那么这个时候，当集群节点接收到来自客户端的读请求时，为了不破坏一致性，可能会因为无法响应最新数据，而返回出错信息。
要么选择可用性，保证服务可用

当选择了可用性（A）的时候，系统将始终处理客户端的查询，返回特定信息，如果发生了网络分区，一些节点将无法返回最新的特定信息，它们将返回自己当前的相对新的信息。

这里我想强调一点，大部分人对 CAP 理论有个误解，认为无论在什么情况下，分布式系统都只能在 C 和 A 中选择 1 个。其实，在不存在网络分区的情况下，也就是分布式系统正常运行时（这也是系统在绝大部分时候所处的状态），就是说在不需要 P 时，C 和 A 能够同时保证。只有当发生分区故障的时候，也就是说需要 P 时，才会在 C 和 A 之间做出选择。而且如果读操作会读到旧数据，影响到了系统运行或业务运行（也就是说会有负面的影响），推荐选择 C，否则选 A。