美文网首页数据仓库
2022数据湖技术摘要

2022数据湖技术摘要

作者: 冰菓_ | 来源:发表于2022-04-10 21:00 被阅读0次

    DataFunSummit 2022 数据湖论坛 数据湖技术论坛 (xiaoe-tech.com)

    1. 美团增量数仓的探索和实践

    美团离线增量数据的探索和实践

    Hadoop没有主键概念

    hive没有主键概念

    1. upsert(replace),delete,MVCC(Multi Version concurrency Control)受限
    2. 有主键的数据在hive中,无法形成增量数据生产链路,必须全量数据参与

    HDFS文件不支持修改

    1. Btree+覆盖写的方式行不通
    2. 只能增量+存量进行Merge产生最终数据集
    架构选型-数据模型
    1. MOR架构 -- 降低生产成本:读数据时产生冗余IO + 离线compact
    2. 支持主键
    3. 支持复杂MVCC,不支持事物:同步任务模型:有调度的乱时间序写入
    4. sharding策略:1.差异化读写并发 2.弹性伸缩:hash主键前缀 + range打散
    架构选型-HIDI

    hadoop incremental dataformat implemtation
    HFile + Bulkload + SnapshotinputFormat + 离线compact


    HIDI架构

    美团实时增量数据的探索和实践

    从增量数仓到批流融合

    批计算和流计算
    成本与时效性的权衡
    批流一体的数仓模型
    1. 开发模型融合 -- Flink
    2. 调度融合 1. 批到流 mini batch by kafka 2. 流到批 mini batch by hudi logfile
    3. 存储融合 1. 流join 2. 点 + 批 + 增量 + 全量 + 离线 + 实时
    4. 批流应能灵活切换
    问题
    1. level0 和 level1 区别
    2. 为什么选取hudi

    2. 实时数仓场景与架构搭建实战

    数仓设计架构演进

    数仓架构演进
    实时数仓架构
    实时数仓架构
    是否需要实时计算
    1. 当前的业务场景是否需要
    2. 业务价值是什么
    是否需要更轻的服务
    1. 更轻的运维
    2. 更好的弹性伸缩能力
    3. 更好的系统稳定性
    4. 成本节省
    5. 安全
    6. 减一点配置

    Amazon Analytics Serverless

    Amazon Analytics Serverless 服务
    无服务器的实时数仓架构
    还需要什么

    Amazon Redshift 更强劲的云原生实时数仓架构

    Redshift 架构
    Redshift 实时数据摄入能力
    实时数据摄取能力
    Redshift 实时数仓
    Redshift实时数仓与实时计算

    Redshift实时数仓 + ML

    3. Delta技术原理及其在EBAY的应用

    Lakehouse架构
    Lakehouse架构
    Delta Lake技术原理
    Delta Lake技术原理

    4. Icebege在微视实时场景的应用

    为何用Icebege

    背景-数仓架构
    微视数仓架构
    1. 实时数仓成本高
    2. 两套计算存储的数据一致性和成本问题
    原因分析
    原因分析
    Icebege与传统存储对比
    Icebege与传统存储对比

    如何用Icebege

    落地结构
    Icebege落地结构
    使用Icebege支持实时需求
    使用Icebege支持实时需求
    1. 使用Icebege基础核心模型建设,为更多业务落地打基础
    2. 成本降低超99%
    数据回溯
    1. 新增指标
    2. 修改计算口径
    3. 数据修复
    数据回溯功能的实现
    流转批场景
    流体一体

    维护Icebege

    数据维护
    1. 清除过期数据
    2. 清除过期快照
    3. 小文件合并 1. binpack策略 2. sort策略:例如:使用用户ID做分组排序
    4. 元数据合并
    5. 清除孤儿文件

    小文件合并原理

    原理

    问题

    1. 每次维表更新率在万分之一在Icebege如何更新
    2. flink中的数据回溯功能是如何实现的
    3. Icebege底层和hive的区别,存储格式
    4. iceberg小文件合并占用多少资源
    5. upsert

    5. Juice FS在数据湖存储架构上的探索

    大数据存储架构概览

    大数据存储架构的变迁
    大数据存储架构的变迁
    为什么要有数据湖
    1. 数据孤岛
    2. 多样的数据格式(结构化,半结构化,非结构化)
    3. 分散的数据管理
    4. 存储计算耦合,缺乏弹性
    5. 机器学习和深度学习
    什么是数据湖
    1. A data lake is a system or repository of data stored in its natural / raw format ,usually object blobs or files
    2. 一个足够便宜,可靠且能支撑海量数据的底层存储(对象存储)
    3. everything in one place
    4. 后置ETL
    5. 存储计算分离,更加云原生
    为什么要有湖仓一体
    1. 数据仓库依然存在,只是后置了
    2. 数据仓库的数据滞后性
    3. 机器学习和深度学习的问题依然存在
    4. 数据重复拷贝和重复ETL
    5. ACID事务,多版本数据,索引,零拷贝克隆等
    什么是湖仓一体
    1. 开放统一的底层文件格式
    2. 开发的存储层
    3. 开发的计算引擎集成
    4. 与深度学习框架的结合

    Juice FS与Lakehouse

    Juice FS简介

    简介
    简介
    架构
    Juice FS与HDFS,对象存储的比较
    Juice FS与HDFS,对象存储的比较

    Juice FS与数据湖生态

    6. Icebege在小红书的探索和实践

    APM日志入湖

    数据平台概览
    小红书数据平台概览
    日志数据入湖
    APM case
    1. 动态分区流量极不均匀,keyby数据倾斜,不keyby小文件多
    2. 小文件多 1.distcp延迟 2. 下游读取效率差
    Evenpartionshuffle
    1. 引入shuffle
    2. 流量动态变化
    日志数据入湖
    1. 异步:下游ETL任务已触发
    2. 跨云读写,OI&OOM风险
    Cloud Native Table
    日志数据入湖 - Cloud Native Table
    S3FileIO
    S3FileIO
    下游集成
    下游集成
    日志数据入湖

    实时湖分析探索

    实时分析链路
    流批一体存储
    IcebegeMergeTree

    CDC实时入湖

    Mysql全量入仓
    Mysql全量入仓
    CDC增量入仓
    CDC增量入仓
    CDC实时入湖
    Exactly once语义
    Exactly once语义
    MoR
    Deduper
    Hidden Partition
    Hidden Partition

    问题

    1. CDC入湖方案
    2. 美团DB数据同步到数据仓库的架构与实践

    相关文章

      网友评论

        本文标题:2022数据湖技术摘要

        本文链接:https://www.haomeiwen.com/subject/kfwmsrtx.html