美文网首页
阅读《大数据之路》总结

阅读《大数据之路》总结

作者: 钢板侠 | 来源:发表于2019-11-12 22:51 被阅读0次

数据漂移:

    数据漂移出现在数据同步的过程中,特定场景在读写日志文件时,当读文件时,binglog日志缺失或者orcale的hlog缺失,那么当天的记录就会出现和业务系统不一致的现象这种我们叫做数据漂移


数据架构

    层级:ods cdm ads


数据同步

    离线数据:

    离线数据采用jdbc的方式,就是全量或者增量的把数据弄过来,所有的数据都是有定时任务抽取的,然后离线的加工也是批次处理

    实时数据:

    实时数据采集:

    实时数据采集阿里用的是tt,开源的可以用kafka

    kafka的原理,读写topic,这里我们需要搭一个数据交换中心,专门记录业务数据变更的日志,而kafka的作用在于,可以发送个topic,而我们作为接收端可以消费这个topic,将topic上的信息读写好存入结构化的数据中

    实时数据处理:

    而作为实时数据处理,我们这里需要涉及flink或者storm的概念,其实大同小异,阿里用的是streamcomputer,或者blink,其实都是运用时间窗口的概念,就是选取一定时间窗口内的流数据去做join或者group by运算,这里运算的时候尽量少用宽表且考虑


事实表设计

    事实表分为

        1.事务型事实表 相对简单,记录所有业务发生的过程

        2.快照型事实表,每天记录事务发生的情况

        3.周期累计型事实表,记录每一段时间的累计事实

        原则:

        1.尽量包含同一个业务过程

         2.仅包含同一业务过程

        3.数据粒度明确

          4.null值需要处理

        5.退化维度要能使用

        6.事实表的单位统一

        没有事实指标但有发生事件的也叫事实表


维度表设计

        1.缓慢变化维:

                1.做成只记录变更的最新记录

                2.做成记录变更的所有记录

                3.按月存储变更的记录

        2.拉链表

        3.维度类型:

            1.多值维度

              2.层级关系维度

              3.微型维度


数据倾斜:

        map倾斜

        join倾斜

        reduce倾斜

小文件问题:

小文件是由于map的时候小文件数量过多,这里可以做小文件合并


元数据管理:

    元数据:表、任务、字段、血缘关系

    质量监控:强弱规则

    计算管理

    成本管理

相关文章

  • 阅读《大数据之路》总结

    数据漂移: 数据漂移出现在数据同步的过程中,特定场景在读写日志文件时,当读文件时,binglog日志缺失或者orc...

  • 钱从哪里来

    阅读《钱从哪里来》内容总结。 我们总结一下个人财富增长之路的三个核心内容。 首先,大量的数据统计告诉我们,工资收入...

  • 读书笔记

    0020-甄立雪 #201900704《财富自由之路》阅读总结# 21/21 财富自由之路 知行三问 【1.印象最...

  • iOS中常用数据持久化总结

    iOS中常用数据持久化总结 哈哈大p孩关注 2016.08.09 17:27*字数 1155阅读 1715评论 1...

  • 0212-0217

    开始阅读《数据运营之路--掘金数据化时代》规模大小、流通速度、多样性是数据的内在属性,而数据通过业务逻辑、挖掘数据...

  • 第二本书总结 26-aloof王-编导

    【今日读书】《财务自由之路》总结 【今日读书时间】 【阅读总结】 每天打卡的方式来看这本书,不过很值得,之前对理财...

  • 所谓的没有成长,只是因为积累的还不够啊

    以下为【玉米读书会】第一期21天看《财富自由之路》打卡内容 #201900614《财富自由之路》阅读总结# 1/2...

  • (201)Atomic*实现原理

    成神之路,需要耐得住寂寞,开启总结源码之旅。 我阅读总结源码的目的不是为了炫技,我希望通过阅读源码可以解决一些问题...

  • 《财务自由之路》Day8

    Day8/21 【今日读书】财务自由之路 【今日读书时间】 一小时 【阅读总结】 今天完成本书100%的阅读。今天...

  • 《财务自由之路》阅读总结

    一、关于读书 之前读书有两大困惑: 第一读完不留痕,没什么感觉,随后就忘记了,现在这种以输出导向的...

网友评论

      本文标题:阅读《大数据之路》总结

      本文链接:https://www.haomeiwen.com/subject/xndcictx.html