美文网首页
观点| 如何避免GitHub那样断网43秒瘫痪 24 个小时?

观点| 如何避免GitHub那样断网43秒瘫痪 24 个小时?

作者: 蚂蚁金服科技 | 来源:发表于2018-11-04 10:23 被阅读0次

小蚂蚁说:

蚂蚁金服自研的金融级分布式关系型数据库OceanBase的高可用及容灾能力在发生城市级故障时,让系统秒级完成智能切换,实现自愈,用户的资金、数据0丢失(新来的同学可以移步《现场剪光缆!ATEC上支付宝模拟自断一半服务器,26秒一切恢复正常》了解更多~)。

今日,GitHub技术负责人Jason Warner的一篇技术深度解析稿成为IT圈爆款。文中,Jason坦诚地对外讲述了10月21日100G光缆设备故障后,Github服务降级的应急过程以及反思总结。

从Jason Warner的文章中不难看出,造成断网43秒瘫痪24小时的罪魁祸首是数据库。由于部署在两个数据中心的数据库集群没有实时同步。意外发生时,Github的工程师担心数据丢失,不敢快速将主数据库安全切换到东海岸的备份数据中心。

程序员们在GitHub这篇“忏悔录”下面留言,表达对数据库集群的“哀悼”。但更多IT从业者关心的问题是,如何避免这样的灾难事件降临到自己的公司,自己维护的系统。

蚂蚁金服OceanBase分布式数据库专家认为,此次Github事件是典型的城市级故障。如果系统采用的是高可用的三地五中心解决方案,就可以自如应对。

就在一个月前,今年的杭州云栖大会上,蚂蚁金服副CTO胡喜现场模拟剪断支付宝近一半的服务器光缆。只用了26秒,模拟环境中的支付宝就完全恢复了正常,这背后即是OceanBase城市级别故障的自愈能力。

原来,Github类似银行采用的传统数据库两地三中心模式,即“主库(主机房)+同城热备库(同城热备机房)+异地灾备库(异地灾备机房)”。这种方式下通常只有主机房的服务器能提供写服务。如果主城市出现城市级故障,灾备城市的数据库虽然可以工作,但由于没有同步的最新数据,因此灾备库的数据是有损的。

但在三地五中心部署下,任何单个城市故障,OceanBase都不会停止服务,数据也不会有任何损失。

Github表示,为了保证数据完整性,他们不得不牺牲恢复时间。其实,这个问题采用三地五中心方案可以更好的应对。城市故障时,OceanBase只要活着的两个城市的三个机房两两之间能够通信,就可以正常服务,也不会有任何的数据损失。

相关文章

  • 观点| 如何避免GitHub那样断网43秒瘫痪 24 个小时?

    小蚂蚁说: 蚂蚁金服自研的金融级分布式关系型数据库OceanBase的高可用及容灾能力在发生城市级故障时,让系统秒...

  • 断网24小时

    去年的年计划 2013年年底的时候,我曾经计划:2014年,每个月都断网一天。事实上,在2014年还有几天就要结束...

  • 断网24小时

    那天只是突发奇想来了个24小时试试,就是看看我这段时间里不碰手机,电脑什么的会不会不习惯。没开始之前规划的很好这...

  • 如何避免决策瘫痪

    我是一个选择困难症。 比如买衣服,去比较繁华的商业街,两边的店非常多,每一家店里的样式又有很多种,看上去眼花缭乱,...

  • 断网24小时后记

    从昨天晚上22:30分到今天晚上22:30分,除了中途用手机上了2分钟,其余时间都断了网络。以下算是记个流水账吧。...

  • 依赖

    前些日子,郑州特大暴雨洪水灾害,导致整座城市瘫痪。 断网,断水,断电。 断电,超市无法营业,断网,无法付款,现在大...

  • 依赖

    前些日子,郑州特大暴雨洪水灾害,导致整座城市瘫痪。断网,断水,断电。断电,超市无法营业,断网,无法付款,现在大家很...

  • 火币网交易瘫痪超3小时 是币价反弹还是黑客入侵?

    火币网交易出现瘫痪超过3小时惹怒不少网友,都纷纷投诉和索赔,但最终结果火币网没有任何回应。火币网交易瘫痪3小时,究...

  • 时间停止的那一天

    嘿,你们说,如果有一天时间从24个小时变成了24小时零二秒,这个世界又该如何运转呢? 在那样一个平凡的小镇...

  • 情绪的修炼—探索委屈(7)

    12月24日。第二次情绪的修炼网课 三个元素模型,感受,观点,行为 第一步,如何应用这个模型? 第二步,感受,观点...

网友评论

      本文标题:观点| 如何避免GitHub那样断网43秒瘫痪 24 个小时?

      本文链接:https://www.haomeiwen.com/subject/yzrrxqtx.html