Airflow是基于Python的ETL和任务调度的工具
要求
当前最新版是Airflow 2.3.0, 需要:
-
Python: 3.7, 3.8, 3.9(不建议用3.10)
-
Databases:
-
PostgreSQL: 10, 11, 12, 13 (需要安装postgres-devel支持插件)
-
MySQL: 5.7(不建议用), 8
-
SQLite: 3.15.0+(可在单机开发测试用,不建议上生产)
-
MSSQL(Experimental): 2017, 2019 (不建议用)
-
-
Kubernetes: 1.20.2 1.21.1 1.22.0, 1.23.0
安装
先激活目标python虚拟环境(以python3.7为例),再执行以下命令(除非希望安装在base环境)
pip install "apache-airflow==2.3.0" --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.3.0/constraints-3.7.txt"
若要为不同版本python安装,以上命令把3.7替换成相应的支持的版本即可
数据库初始化
airflow standalone # all-in-one service使用默认的sqlite3
#或者
airflow initdb
访问web界面
# 启动 web 服务器,默认端口是 8080
airflow webserver -p 8080
浏览器使用 localhost:8080 就好了
启动 scheduler 服务器
进去web界面后可能会提示scheduler未启动,运行一下以下命令就好了
airflow scheduler
插件依赖
取决于环境要求,可能需要安装额外的插件依赖,比如若要使用Postgres DB,需要安装 postgres-devel
yum package. 具体不同环境下的extra和provider可查阅以下链接。
网友评论