前言
dataworks是一款 集数据采集\数据存储\数据计算\报表可视化\数据治理为一体的综合化\全链路的大数据开发治理平台
- 适用场景 比如说,我公司每日生成大数据量的业务数据,日志数据 需要构建数仓平台,数据中台,对公司的这些数据进行分析,为公司的营销,生产提供数据支持.
市面大致有三种数仓和数据中台处理方案
- 基于apache 开源的大数据框架 hadoop hive spark flink等,
- 基于CDH的大数据相关框架,优点 集成性高,操作简单,方便运维,缺点 贵
- 袋鼠云, 奇点云 dataworks等
对比之下 dataworks 不需要懂那么多原理,会操作使用即可,后期服务器部署及后续运维,可基于阿里云服务器完成
dataworks 官方文档
大数据开发治理平台 DataWorks (aliyun.com)
阿里云产品相关
阿里云产品 | 简介 | 类比 |
---|---|---|
DataHub | 数据总线 | 类型 flume/datax+kafka 提供实时日志数据采集,并且可以缓存数据 |
阿里云OSS(Object Storage Service) | MaxCompute会将表数据存储在阿里云OSS中 | HDFS |
E-MapReduce | 阿里开源大数据计算引擎 | MR,Spark |
MaxCompute | 分布式数据处理引擎 | 阿里自研,很好用 |
Dataworks | 基于MaxCompute的开发管理平台 | 可视化的开发管理调度平台 |
RDS | 关系型数据库 | mysql,一般公司都用自己的数据库,可以通过采集工具将数据采集到dataworks中 |
QuickBi | 可视化工具,效果酷炫 | Tableau,Echarts,powerbi,帆软BI |
项目技术选型
数据采集: datax
数据存储:MaxCompute,DataWorks
数据计算:MaxCompute,DataWorks
可视化 : QuickBi
image.pngimage.png
网友评论