原文: https://www.tensorflow.org/tfx/tutorials/tfx/airflow_workshop
在之前已经完成了 TFX Airflow 安装
这里继续按照tutorial进行下一步的数据分析
- 我们进入页面后是这样的,里面有两个DAG
-
我们enable第一个taxi项目的DAG,点进去后就可以看到相应的模块(这里由于代码中注释掉了后续step所以只有一个模块被展示了出来)我们执行它(上个图里的Links下的第一个图标),执行ok后模块边缘颜色会变成深绿色!
- 进行数据分析
3.1 我们进入到airflow/dags/taxi_pipeline.py
将所有含有Step3的步骤都打开注释,并且刷新代代码,再进入DAG中看下,
image.png
我们可以看到从原来的一个模块增加了3个模块。
image.png
这第三个模块是:
- ExampleGen ingests and splits the input dataset.
- StatisticsGen calculates statistics for the dataset.
- SchemaGen SchemaGen examines the statistics and creates a data schema.
- ExampleValidator looks for anomalies and missing values in the dataset.
3.2 我们执行DAG!
image.png
3.3 在jupyternotebook看数据分析结果
在教程: TFX Airflow 安装 中我们启动了notebook,我们进入 step3.ipynb
执行代码
这里用的数据分析工具叫做TFDV 在之后会做一些学习整理再附上链接(TODO)
注意:这里如果有代码错误的话在终端的日志和页面都会报错,注意看日志修改代码即可。
网友评论