大数据开发环境搭建一般比较费时,如果用docker部署的话,能够大大节约部署时间,提高数据开发效率。为了让数据开发变得更加简单,抽时间进行了大数据平台的docker部署开发。
目前,比较主流的大数据平台架构如图所示,主要采用Flume或Beats进行数据采集,Kafka做数据采集消息队列,不仅可以消峰,也可以直接与ELKB配合进行数据采集;数据存储则采用主流的HDFS做为原始数据存储,Hive做数仓, ES可以用于存储近实时数据,与Hive一起配合可以较好的进行实时数据分析;HBase可用于用户画像等场景;当然,ES和HBase也是ADS层的核心数据组件,也可以采用Clickhouse, 能够满足各种复杂场景的查询分析;流批计算引擎,采用高性能的Flink,满足实时计算和批量计算的场景;数据查询引擎,可以采用presto,当然也可以用Clickhouse。
大数据平台架构基于以上架构,采用docker-compose进行大数据平台开发环境的一键部署。各组件的版本如下:Apache Hadoop 3.2、Prestodb 0.247、
、 Kafka 2.0+、Hbase 2.2、Hive 3.1.2、 ELK 7.9.1、Flink on yarn 1.11.3。 部署步骤:
安装docker:
1. yum remove docker docker-common docker-selinux docker-engine
2. yum install -y yum-utils device-mapper-persistent-data lvm2
3. yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
4. yum install -y docker-ce
5. systemctl start docker.service
6. systemctl enable docker.service
安装docker-compose:
1. sudo curl -L "https://github.com/docker/compose/releases/download/1.23.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
2. sudo chmod +x /usr/local/bin/docker-compose
3. docker-compose --version
下载docker compose文件:
git clone https://github.com/spancer/bigdata-docker-compose.git
一键启动:
1. cd bigdata-docker-compose
2. docker-compose up -d
目前各组件的dockerfile文件暂未开源,但是所有的组件均基于apache开源版本,可放心进行开发使用。后续计划整合robot相关的测试工具后再行开源。
网友评论