介绍
最近我开始大量研究 Apache Kafka 和 Apache Spark,这是数据工程领域的两项领先技术。
在过去的几个月里,我用它们做了几个项目;“使用 Kafka、Debezium 和 BentoML 进行机器学习流式处理”就是一个例子。我的重点是学习如何使用这些现代著名工具创建强大的数据管道,并了解它们的优缺点。
在过去的几个月里,我已经介绍了如何使用这两种工具创建 ETL 管道,但从未将它们一起使用,这就是我今天要填补的空白。
我们的目标是了解使用 Spark+Kafka 构建流式应用程序的总体思路,并使用真实数据快速了解其主要概念。
简而言之,Kafka 和 Spark
这个想法很简单——Apache Kafka 是一种消息流工具,生产者在队列的一端(称为主题)写入消息,以供消费者在另一端读取。
网友评论