聊聊分布式事务

作者: 红瓦李 | 来源:发表于2020-03-27 14:40 被阅读0次

聊聊分布式事务
聊聊分布式事务
聊聊分布式事务
聊聊分布式事务，再说说解决方案
分布式事务与分布式锁
微服务分布式事务--破局
聊聊分布式事务一
分布式事务
面试官80%会问的分布式事务中的“最大努力通知”事务
分布式柔性事务之最大努力通知事务详解

数据库事务

在编程的世界里，数据非常重要，数据库担任了很重要的角色，数据库拥有的ACID特性，我们只管声明事务，通过sql对数据库进行批量操作，就能够达到目标，其背后是数据库做了很多工作，帮我们处理了很多异常，比如数据库机器断电，如何保证强一致性呢，原来是数据库会有两个文件，数据库文件和日志文件，调用方法开启事务，执行的sql，都会存储在日志文件中，捕捉到调用方发起的commit命令后，才将日志中存储的事务sql执行到数据库，在调用方提交事务后，机器断电的情况下，这是事务sql已经存在于日志文件中，在机器重启后，通过检查日志文件，对已提交状态但未完成的事务进行后续处理，提取事务sql恢复执行来保证强一致性。

XA Transaction

在单机环境下，通过数据库事务，我们就能很完美的解决一致性的问题。随着系统访问量的上升，单机数据库慢慢出现性能瓶颈，这是会对单体服务进行拆分，同时对数据库也进行拆分，伴随着垂直分库，进入到分布式领域，出现了新的问题。原先要执行的业务操作sql都是在一个数据库中完成，但如今却分布在不同的物理库上，无法通过原有的事务来处理，数据库厂商引入了2pc理论（两阶段提交）即XA，引入协调者，参与者事务，在开启全局事务时，协调者会锁住整个事务，现在各个分库执行precommit预提交，协调者检测到所有的commit都通过后，通知各个分库执行commit，这种方式有个致命缺点，会锁住整个事务，这期间相应的表都不能访问，随着并发量的上升，性能会急剧下降。这是通过牺牲一定的可用性来换去一致性的做法

MQ消息

以订单扣库存生成订单为例

//业务逻辑
try{
  discontStock(skuId, quantity);
  saveOrderDb();
}catch(Execption e){
  try{
    returnStock(skuId, quantity);
  }catch(e){
    try{
      sendReturnStockMsg();
    }catch(e){
      saveReturnStockMsgToDeadLetter();
    }
  }
}
//通过定时任务进行消息重发
task.ScanDeadLetterForRePushMsg()

缺点：

1.订单在下单失败后，需要干很多杂活，下单是关键业务，会影响损耗一部分性能
2.订单服务在下单失败，catch回滚资源阶段宕机了，这个情况下，不能保证数据一致性，需要人工介入修依赖方数据

补偿事务TCC

为解决性能问题，引入了事务的补偿机制，和XA正好相反，着力于提高可用性，属于3pc，根据CAP和BASE原理，通过Try、Confirm、Cancel来实现，核心思想是为每个操作都注册一对确认和取消操作。在整个try成功则执行各系统的confirm方法，失败，则执行各系统的cancel方法。只要try成功，confirm阶段一定成功，会通过重试来保证：

try阶段：业务检查和预留系统资源
confirm阶段：try成功，就会开始执行confirm，并且通过重试保证confirm一定能成功，这里不允许出错
cancel阶段：try阶段出错后执行cancel，并且通过重试保证cancel逻辑，一定能被调用成功。

基于tcc_transaction框架二次开发来适应业务

参考：https://github.com/changmingxie/tcc-transaction/tree/master
原理：通过在try方法的接口上添加注解Compensable，注解信息提供confirm和cancel方法调用位置，使用aop拦截try方法，提取compensable注解信息，完成为事务，注册确认和取消操作的操作。在事务发起方的try阶段完成后，aop根据 try阶段是否抛异常来判定进入事务confirm or cancel阶段，完成状态流转
场景分析：目标方法调用前做事务状态存储，如try阶段，事务存储成功，目标方法执行前宕机，会由事务发起方进行rollback操作，此时要求目标机器在 confirm和cancel阶段实现业务幂等；
优点：
- 提供了对场景各种传播特性的支持： required require_new supports mandatory
缺点：
- 1.要求事务参与方，提供事务的存储方式，还需要在理解的原理的基础上进行配置（比如：配置当前参与者事务的存储位置,手动依赖spring相关的xml配置），相对复杂；
- 2.事务管理操作完全依赖于业务系统的 aop逻辑，会给业务系统造成一定性能损耗，而且在业务系统宕机时，会中断事务管理，虽然业务重启也能恢复，但会延长事务数据流转到最终态的时间；
- 3.要求tcc三阶段操作的入参相同，使用起来不太灵活。

针对上述问题，进行了二次开发

改进：

通过一个tcc服务来做tcc事务管理，aop的功能弱化为在try执行后调用tcc服务上传try阶段的状态
调整confirm 和cancel方法参数为 transId\branchId,由事务参与方自己维护，业务参数到 transId\branchId的映射
简化为只在try方法调用之后才通过aop调用tcc服务进行事务的上传操作，事务状态维护交由tcc服务来管理
增强：添加熔断降级逻辑，假如调用tcc服务上传try阶段状态失败了，先尝试重试几次，记录失败次数，到达一定次数（150次）了触发熔断，直接通过aop去进行参与者事务的confirm or cancel逻辑调用（有损）

实现：

@Description("事务实体类")
public class Entity extends BaseEntity implements Serializable {
    @Description("id")
    public long id;
    @Description("分布式事务事务id")
    public String transId;
    @Description("分布式事务事务分支id")
    public String branchId;
    @Description("分布式事务步骤id")
    public String stepId;
    @Description("分布式事务服务名")
    public String serviceName;
    @Description("分布式事务失败方法名")
    public String cancelName;
    @Description("分布式事务成功方法名")
    public String confirmName;
    @Description("是否成功")
    public boolean flag;
    @Description("分布式事务调用方法")
    public List<String> invokeList = new CopyOnWriteArrayList<>();
    @Description("分布式事务是否操作")
    public boolean isTccOperator;
    @Description("分布式事务校验码")
    public String checkSum;
    @Description("分布式事务操作异常信息")
    public String errorMsg;
    @Description("分布式事务创建时间")
    public Date date;
}

1.实现一个aop拦截注解Compensable，获取try对应的confirm和cancel方法，以及try调用结果，提交给tccService管理
2.tccService 在接受到参与者事务后，状态保存到redis，在检测到事务发起方的try阶段提交结果后，判断走整个事务走confirm or cancel逻辑，confirm or cancel逻辑由tcc服务发起dubbo泛化调用来完成，每完成一组confirm or cancel调用，立即更新redis参与者事务的状态。
3.实现一个定时任务，用redis scan扫描未完成的事务，拉取到服务中，检测事务状态整个事务中有出现参与者在try阶段失败，走cancel逻辑，没有参与者失败，走confirm逻辑，在完成后，完成事务统计和添加redis事务key前缀为completed_, 这样做的原因是，redis是单线程执行的，可以避免执行scan命令过长，影响性能。

可用性分析：

1.在事务执行过程中，tccService（redis）宕机了，在重启时，通过定时任务用ScheduledThreadPoolExecutor，用redis scan扫描未完成的事务，拉取到服务中，检测事务状态整个事务中有出现参与者在try阶段失败，走cancel逻辑，没有参与者失败，走confirm逻辑，通过这样的手段保证数据的最终一致性
2.业务系统有一台宕机了，因为状态已经上传到redis中，并且通过tcc服务来管理，并不会影响库存的归还，因此也能保证最终一致性

聊聊分布式事务
这次使用分布式事务框架过程中了学习了一些分布式事务知识，所以本文我们就来聊聊分布式事务那些事。首先我们先回顾下什么...
聊聊分布式事务
前言我们都知道数据库的事务满足"ACID"特性，A是指事务的原子性，C是指事务的一致性，I指事务的隔离性，D指持...
聊聊分布式事务
数据库事务在编程的世界里，数据非常重要，数据库担任了很重要的角色，数据库拥有的ACID特性，我们只管声明事务，通...
聊聊分布式事务，再说说解决方案
聊聊分布式事务，再说说解决方案分布式事务是企业集成中的一个技术难点，也是每一个分布式系统架构中都会涉及到的一个东...
分布式事务与分布式锁
一、分布式事务什么事分布式事务分布式事务就是指事务的资源分别位于不同的分布式系统的不同节点之上的事务。分布式...
微服务分布式事务--破局
微服务架构下分布式事务设计实战商品订单支付分布式事务->长事务本地事务->短事务分布式事务：比如下...
聊聊分布式事务一
由于目前的项目都朝着SOA或者微服务方向发展，一个系统必定拆分成多个子系统，系统间的交互比不可少。随之而来的就是一...
分布式事务
目录分布式事务解决方案长事务: saga 短事务: 设计的时候尽量短事务，能不用分布式事务尽量不用，分布式事务...
面试官80%会问的分布式事务中的“最大努力通知”事务
一、概述咱们今天聊聊分布式事务系列中的最后一个方案：最大努力通知事务。最大努力通知事务的主流实现仍是基于MQ来进...
分布式柔性事务之最大努力通知事务详解
一、概述咱们今天聊聊分布式事务系列中的最后一个方案：最大努力通知事务。最大努力通知事务的主流实现仍是基于MQ来进...