美文网首页
导入方案的思考

导入方案的思考

作者: Always_July | 来源:发表于2022-06-10 14:43 被阅读0次

    导入的背景

    用户为了更方便进行批量的数据处理,系统提供导入功能来满足该需求。对研发人员来说,导入等价于批量处理数据。

    导入存在的问题

    系统层面:

    • 导入数据过多,导致内存溢出(OOM),系统负载飙升。
    • 大批量的事务提交。
    • 如果有对外依赖,外部依赖不稳定将导致 整个导入超时耗时。

    用户层面:

    • 导入耗时过长,只能等待,无法做其他事情。如果存在超时的情况那更加难以接受。
    • 系统异常时,无法了解导入的结果。

    方案

    从用户层面的问题来看,长时间等待和无法了解导入的结果是无法忍受的。所以 系统应该 对导入任务进行异步处理,并提供导入结果查询。

    从系统层面的问题来讲,既然是批量任务,那我们可以将其分解为小批量任务来处理。

    一个实际的案例

    背景:用户导入excel进行付款,这个过程需要根据导入的账单号批量到账单,然后对这个账单的金额修改,如果金额为0了,那么进行 账单状态的变更,并通知其他业务系统。

    导入流程

    1. 提交异步任务
      初始化 导入任务,使用线程池 执行导入任务
    2. 解析
    3. 批量处理数据
      可以在解析到一定的条数时执行批量处理数据
    4. 插入导入结果
      一次批量处理完以后,插入导入结果。
    5. 完成任务

    如上的方案是 解析一批数据,然后对这一批数据进行批量处理,并插入批量导入结果。

    查询和下载

    提供查询导入任务 和 下载导入结果以方便用户了解导入结果

    表设计

    使用的MySQL5.7.28

    1.导入任务表

    CREATE TABLE `t_import_task` (
      `id` bigint(20) NOT NULL AUTO_INCREMENT,
      `file_name` varchar(50) NOT NULL COMMENT '导入文件名称',
      `type` tinyint(1) NOT NULL COMMENT '导入类型',
      `status` tinyint(1) NOT NULL COMMENT '导入状态,0 导入中 1 导入完成',
      `creator` bigint(20) NOT NULL COMMENT '操作人',
      `creator_name` varchar(20) DEFAULT NULL COMMENT '操作人姓名',
      `start_time` datetime NOT NULL COMMENT '开始时间',
      `end_time` datetime DEFAULT NULL COMMENT '完成时间',
      PRIMARY KEY (`id`)
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4
    

    2.导入任务详情表

    CREATE TABLE `t_import_task_detail` (
      `id` bigint(20) NOT NULL AUTO_INCREMENT,
      `import_task_id` bigint(20) DEFAULT NULL COMMENT '导入任务ID',
      `row_index` int(11) DEFAULT NULL COMMENT '第几行 从1开始',
      `row_data` varchar(2000) DEFAULT NULL COMMENT '每一行的数据',
      `status` tinyint(1) NOT NULL COMMENT '导入状态,0 未导入 1 导入成功 2 导入失败',
      `failure_reason` varchar(200) DEFAULT NULL COMMENT '导入失败原因',
      PRIMARY KEY (`id`),
      KEY `idx_import_task_id` (`import_task_id`)
    ) ENGINE=InnoDB AUTO_INCREMENT=65 DEFAULT CHARSET=utf8mb4
    

    异常情况考虑

    1. 解析发生异常,会导致导入任务详情表中没有数据。此种情况用户也能观察到,因为导入的条数和下载的条数不相同。
    2. 解析到一半时,系统重启。此种情况和上面的情况一致。

    进一步优化

    1. 多线程解析,加快解析速度。
    2. 多线程批量处理数据,加快处理速度。
    3. 导入结果数据过多,导致导入详情表数据过多,可以考虑定时清除导入数据。
    4. 在页面提供单行数据修改,并再页面提供单行数据重试功能。

    相关文章

      网友评论

          本文标题:导入方案的思考

          本文链接:https://www.haomeiwen.com/subject/ojtbmrtx.html