美文网首页
为什么我不把业务系统全部迁移到Spark?(上)

为什么我不把业务系统全部迁移到Spark?(上)

作者: 日更专用小马甲 | 来源:发表于2019-04-26 09:39 被阅读0次

    之前的半年,把一部分业务从MySQL+Java改造成了类HDFS+Spark的形式。

    这部分业务,主要是从数据集根据特定的规则进行匹配。规则本身是带有业务标签的。经过一些检验之后,相同标签的数据会进行归并(理解成group by就好)。

    经历这一步之后,数据总量从千万级“骤降”到千级。

    完成这部分改造后,接下来要做的事情极度偏业务逻辑,从场景上来说大概还要区分国内一套,国际一套。目前依然是使用Java实现。

    因为架构选型是我做的,因此我想谈谈为什么。

    首先,升级的原因一定是系统有痛点,当时痛在2点:

    • 数据库单表基本已经到极限即使走到索性,速度依然快不起来。
    • 数据加载到内存之后,单个JVM支撑不了标记和归集的动作(当然,代码烂是很大一部分原因)。大约需要运算几个小时才能跑出结果。如果发现因为规则配置导致结果不符合预期,重跑又是几个小时。

    再补充几个点:从描述应该可以看出来,系统具有很明显的OLAP的性质;同时,对于运行速度有很高的要求(5分钟出结果);最后,不太同于一般意义的离线分析系统,规则极度偏业务、易错,且一旦结果不符合预期,可能调整规则重新计算。

    基于上面的描述。我选择了把部分存储和计算迁移到大数据框架下。

    ---华丽的分割线---

    发现随便写了写,已经快500字了,那就拆分一下,下一篇继续吧。

    相关文章

      网友评论

          本文标题:为什么我不把业务系统全部迁移到Spark?(上)

          本文链接:https://www.haomeiwen.com/subject/ubnxnqtx.html