最近在做数据中心的ETL相关的工作,联想到之前工作的一些情况,整理一下。

看起来是一件比较简单的事情,但在大数据量下(每天十来亿吧),似乎不是那么一定。
之前做过一个数据同步平台,大致功能如下。
- 数据同步平台
- 数据监控平台
- 数据矫正平台
关于数据同步平台呢,就主要是围绕着【多机器,多线程池】去展开,能动态调整执行的机器,执行的程序,任务状况等。
因为在大数据量下面,可能面临着各种情况,他的最终结果就体现在业务数据和数据中心的数据不一致的情况。这个时候就需要做数据监控了,下达各种监控的任务,去保证两边数据的一致性。
在发现不一致的情况下,就需要去做矫正的事情了。大部分的失败情况就能通过程序自动矫正他里面不一致的情况。如果实在程序处理不了的,再通知人工接入。
先这样吧,后面我补充一点技术方面的架构,能让他对实际工作指导吧。
网友评论