数据工程的实践。
存量和增量逻辑分开,不要混到一起。起初想通过Airflow DAG中的一个Task同时进行存量和增量处理,整个代码逻辑变得比较复杂。增量未来需要持续运行,而存量运行次数有限
数据开发中的测试,和代码逻辑的单元测试,目的一致,但手段不同。起初数据开发测试,从线上拉取备份生成镜像,然后从镜像中提取部分数据作为测试数据放入Docker中的测试数据库,然后写单元测试代码从Docker中提取。编写脚手架脚本比较花费时间,并且此类单元测试,也主要看能否转换数据,难以在单元测试中写详细。目前采用方式是,Juypter Notebook中直连线上数据(从库,只读),分别编写存量和增量处理代码,即时检查,比之前做法快很多
网友评论