高可用（HA）

作者: 大头8086 | 来源:发表于2017-10-16 21:54 被阅读46次

openstack高可用
java大数据之hadoop_ha
高可用（HA）
Hadoop3.x生产环境调优之高可用
Hadoop HA
什么是高可用集群（HA）？高可用集群的基础知识总结
Docker Swarm + HAProxy 实现高可用
好程序员大数据培训分享Hadoop阶段的高可用配置
HA机制
redis高可用sentinel哨兵模式

1、脑裂：

1）什么是脑裂

在心跳失效的时候，就发生了脑裂（split-brain）。

一种常见的脑裂情况可以描述如下，比如正常情况下，（集群中的）NodeA 和 NodeB 会通过心跳检测以确认对方存在，在通过心跳检测确认不到对方存在时，就接管对应的（共享） resource 。如果突然间，NodeA 和 NodeB 之间的心跳不存在了（如网络断开），而 NodeA 和 NodeB 事实上却都处于 Active 状态，此时 NodeA 要接管 NodeB 的 resource ，同时 NodeB 要接管 NodeA 的 resource ，这时就是脑裂（split-brain）。

2）影响
脑裂（split-brain）会引起数据的不完整性，并且可能会对服务造成严重影响。这时由于，集群中节点（在脑裂期间）同时访问同一共享资源，而此时并没有锁机制来控制针对该数据访问（都脑裂了，咋控制哩），那么就存在数据的不完整性的可能。

3）解决方法

添加冗余的心跳线。例如双线条线，尽量减少“脑裂”发生机会。
启用磁盘锁。正在服务一方锁住共享磁盘，“脑裂”发生时，让对方完全“抢不走”共享磁盘资源。但使用锁磁盘也会有一个问题，如果占用共享盘的一方不主动“解锁”，另一方就永远得不到共享磁盘。现实中假如服务节点突然死机或崩溃，就不可能执行解锁命令，后备节点也就接管不了共享资源和应用服务。于是有人在HA中设计了“智能”锁。即，正在服务的一方只在发现心跳线全部断开（察觉不到对端）时才启用磁盘锁，平时不上锁。
设置仲裁机制。例如设置参考IP（如网关IP），当心跳线完全断开时，2个节点都各自ping一下参考IP，不通则表明断点就出在本端，不仅“心跳”、还兼对外“服务”的本端网络链路断了，即使启动（或继续）应用服务也没有用了，那就主动放弃竞争，让能够ping通参考IP的一端去起服务。更保险一些，ping不通参考IP的一方干脆就自我重启，以彻底释放有可能还占用着的那些共享资源。