rabbitmq集群宕机丢失用户问题分析报告

rabbitmq集群宕机丢失用户问题分析报告

作者: doverxu | 来源:发表于2021-05-31 16:50 被阅读0次

rabbitmq集群宕机丢失用户问题分析报告
RabbitMQ的持久化设置
10.RabbitMQ持久化
生产环境Rabbitmq集群安装部署与配置
RabbitMQ镜像模式集群可用性测试总结
RabbitMQ 集群高可用部署详细介绍
4. MQ消息的可靠性&处理消息丢失
43 集群、分布式和微服务
在什么情况下redis集群会陷入奔溃呢？又该如何去解决宕机问题呢
集群、分布式和微服务的区别

问题背景

pacemaker集群同时断电或重启时，rabbitmq中创建的用户丢失，仅默认用户还在。
初步验证：如果是直接命令拉起的rabbitmq集群(不用pacemaker管理)，不存在以上问题。

问题分析

Rabbitmq集群数据持久化流程

基本概念：

Rabbitmq是基于mnesia（一个分布式数据库管理系统）。
mnesia有 LATEST.LOG 日志文件及 *.DAT, *.DCD *.DCL 等数据文件。
mnesia是先向 LATEST.LOG写日志，当日志达到dump_log_write_threshold参数(默认100条)或时间到dump_log_time_threshold(默认3min)时，会将这最多100条日志操作转存到数据文件上。
dump操作应该就是 LOG->DAT转移的过程。

原理分析：

当数据持久化到数据文件之后，如果不重建集群，仅仅重启rabbitmq服务是可以保留用户数据，队列等数据的。

pacmeker管理的rabbitmq集群的启动逻辑

pacemaker管理的rabbitmq集群，在每次启动整个rabbitmq集群时，是一个重建集群的过程（包括了清除原数据目录/var/lib/rabbitmq/mnesia），因此原有的用户数据，队列数据等将会丢失。
如果只是重启部分rabbitmq，所有数据不会丢失。
如果正常重启pacemaker集群，元数据不会丢失，因为pacemaker在停止服务前备份了用户、权限、策略等元数据，启动服务后再恢复这些元数据。
从pacemaker的管理逻辑可以看出
- 对消息数据的管理，pacemaker是将消息数据理解为临时数据，重启后rabbitmq服务端会清空消息数据。
- 对元数据(用户、权限、策略)的管理，pacemaker采取备份和恢复的测录，原理上存在集群掉电或强制重启时，丢失元数据的问题。

修复方案

修改pacemaker对元数据的管理逻辑

移除备份和恢复的逻辑代码
启动rabbitmq集群时，根据数据目录(/var/lib/rabbitmq/mnesia)是否存在，采取不同启动流程：
- 如果数据目录存在，则直接拉起rabbtimq服务。
- 如果数据目录不存在，则重建rabbitmq集群。

方案影响

修改前：
当rabbitmq集群数据异常，无法建立集群时，rabbitmq服务可以通过重建拉起服务。
修改后：
当rabbitmq集群数据异常，无法建立集群时，rabbitmq服务不能正常启动
恢复方式：
1. 删除异常节点的rabbitmq数据目录：/var/lib/rabbitmq/mnesia，并重启服务。
2. 检查用户数据是否丢失，如果丢失需创建对应用户、权限数据。

相关文章

rabbitmq集群宕机丢失用户问题分析报告
问题背景 pacemaker集群同时断电或重启时，rabbitmq中创建的用户丢失，仅默认用户还在。初步验证：如...
RabbitMQ的持久化设置
“持久化”可以提高RabbitMQ的可靠性，以防在异常情况（重启、关闭、宕机等）下的数据丢失。RabbitMQ的持...
10.RabbitMQ持久化
持久化可以提高RabbitMQ的可靠性，以防在RabbitMQ重启、关闭、宕机下的数据丢失。 1.交换器的持久化 ...
生产环境Rabbitmq集群安装部署与配置
更多:生产环境Rabbitmq集群安装创建用户创建用户名sudo adduser rabbitmq 添加到su...
RabbitMQ镜像模式集群可用性测试总结
由于业务的需要用到队列，并保证队列的高可用性，我们选择了RabbitMQ的镜像集群模式。这种集群模式在队列节点宕机...
RabbitMQ 集群高可用部署详细介绍
为什么搭建rabbitmq集群？rabbitmq集群有那些模式？如何搭建Rabbitmq集群？rabbitmq镜像...
4. MQ消息的可靠性&处理消息丢失
一分析数据的丢失问题，可能出现在生产者、MQ、消费者中，咱们从 RabbitMQ 和 Kafka 分别来分析一...
43 集群、分布式和微服务
问题：阐述集群、分布式和微服务的区别答案：集群：多个服务同时干一件事情，某一个服务宕机，用户基本无感知。我们...
在什么情况下redis集群会陷入奔溃呢？又该如何去解决宕机问题呢
集群宕机的条件说明如果集群中只搭建6台redis,则如果有2-4台redis宕机则集群陷入奔溃最少宕机数量2 如...
集群、分布式和微服务的区别
集群：多个服务同时干一件事情，某一个服务宕机，用户基本无感知。我们通常讲的tomcat集群，nginx集群，red...

网友评论

本文标题：rabbitmq集群宕机丢失用户问题分析报告

本文链接：https://www.haomeiwen.com/subject/eutgsltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|rabbitmq集群宕机丢失用户问题分析报告|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！