gobblin 源码分析

作者: 走在成长的道路上 | 来源:发表于2018-05-18 12:21 被阅读0次

最近，开始搞些大数据相关的内容，遇到的第一个问题，就是数据入库，小白刚入手，又不想写太多代码，于是从网上找，入库手段很多： DataX，Sqoop，以及Flume 等以及直接使用 Spark 进行入库，想了下当下的场景(不是简单的倒库，要从kafka拉，然后过滤些东西，在进入库里)，后来发现了 linkedin 的 gobblin ，感觉很强大的，说是国内 JD 也在用...

进入正题....

架构分析

如下图所示，本人使用的是独立运行的单机程序，因此使用的 EmbeddedGobblin 来启动 Job ，顺着这条路一直缕到 Gobblin 内部运行机制：

架构类图

如上图所示，EmbededGobblin 作为 Gobblin 启动项，通过 Task 的方式将 Job 管理起来，如果存在多个不同的 Fork ，分别将数据进行复制，并传递到各个 Fork 中进行进一步的计算处理。

整个过程中主要可能涉及到的是 Converter 的配置， Watermark， Writer等相关内容的应用，通过结合 Watermark 与 Writer 配合，也能做到反馈当前写到哪里，方便当前程序停掉之后，下次启动时接着这次继续运行。

网友评论

本文标题：gobblin 源码分析

本文链接：https://www.haomeiwen.com/subject/gzqgdftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

gobblin 源码分析

架构分析

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读