综述
本章讨论了分布式系统面临的麻烦事,网络问题(无法完全保障的网络)、时钟和时序问题(不可靠时钟),以及面对这些问题时我们能够避免的程度。这些问题的后果是不可预测了,后面还给出了推理后果的方法。
引子
对比了超级计算机和云计算的区别,以及各自的优缺点。云计算遇到的部分故障或者不可靠问题,恰恰也使其具备了一定的优势:低延时服务、热备、成本廉价等。分布式系统的特点说明,如果要使分布式系统工作,就必须接受部分故障的可能性,并在软件中建立容错机制。换句话说,我们需要从不可靠的组件构建一个可靠的系统。这个思想也是个计算机比较古老的思想,比如纠错码、TCP协议等,TCP隐藏了数据包丢失、重传、排序的的问题,但不能根本上消除延时。
网友评论