etl-bigdata

作者: NEO_X | 来源:发表于2020-07-02 23:41 被阅读0次

    从本文开始,将开始介绍针对大数据平台的ETL方法,并搭建相关的环境,构建两种数据仓库模型 。
    更多信息查看:https://blue-shadow.top

    开源方案 – Mondrian + 其他的开源数据库
    商业方案 – SQLServer等其他商业数据库
    大数据方案 – Hadoop大数据环境

    其中会涉及到不同方案中使用的ETL工具,但以大数据平台为主,调度处理通过编写Python脚本执行。涉及两种数据仓库模型:多维分析数据模型和Data Valut数据模型。

    配置,可视化操作;使用Python进行开发,在Airflow中调用各种不同的Python脚本处理不同的任务。

    1 安装环境 – 需要安装
    管理工具 : Ambari , 其他
    大数据环境: Hadoop & Spark & Hive & HBase (HBase和Hive整合) (Spark和Hive整合,让Spark Sql直接调用Hive表)
    调度、ETL : Airflow 、 Kettle 、 Sqoop 、 SSIS 、
    数据库 : Mysql 、 Mondrian 、 SQLServer 、Hive
    报表、仪表盘: Bokeh 、 Superset 、 Excel 、

    2 数据模型的说明

    大数据平台的安全性–权限认证和数据的保护。

    3 模型数据

    使用adventure works数据,作为式样数据。构建星型数据仓库模型和Data Valut 2.0模型。
    
    

    4 Kettle的说明
    对于Kettle的介绍和使用。使用Kettle连接各种不同的数据,模拟真实的ETL场景,但着重点是对大数据平台的对接。

    5 SSIS的使用
    作为SQLServer中的ETL工具,具有强大的功能与完善的功能,同样的也可以和大数据平台进行对接。

    6 Sqoop说明
    大数据环境的ETL工具,可以用来连接各种不同的关系数据库与Hive进行数据的交互。

    7 调度系统Airflow
    开源任务调度平台,通提编写Python脚本,完成各种不同类型的任务。

    8 构建多维分析数据模型

    9 构建Data Valut数据模型

    10 Bokeh分析

    11 Superset分析

    12 Excel分析

    13 Mondrian分析

    相关文章

      网友评论

        本文标题:etl-bigdata

        本文链接:https://www.haomeiwen.com/subject/hlqhqktx.html