美文网首页
数据采集与存储(一、数据接入消息队列)

数据采集与存储(一、数据接入消息队列)

作者: 猎阳 | 来源:发表于2017-07-18 15:51 被阅读0次

项目采集端通过爬虫采集微博相关数据,需要提供对数据的接入、清洗和存储。技术上实施流程为,爬虫将采集数据发送到消息队列(kafka)数据缓冲接入,队列后端通过spark stream进行消息流数据的清洗,并存储到hadoop平台,整个流程如图所示:

1.创建kafkatopic

如图,创建了一个名为weibodata的主题队列,指定分区(并发度)为5,消息备份为2。

2. 通过python接口往消息队列发送数据

        python可以通过kafka-python库与kafka进行交互,所以首先安装kafka-python

2.1 通过生产者发送数据例子

创建一个kafka数据生产者,指定kafka集群连接地址,然后通过send方法,发送数据,第一个参数为topic主题队列,值为前面创建的’weibodata’,第二个参数就是需要发送的数据字符串。

2.1通过消费者接收数据例子

相关文章

  • 数据采集与存储(一、数据接入消息队列)

    项目采集端通过爬虫采集微博相关数据,需要提供对数据的接入、清洗和存储。技术上实施流程为,爬虫将采集数据发送到消息队...

  • 综合案例 - 陌陌实时采集日志

    需求 陌陌综合案例,业务数据流程图:陌陌用户聊天数据存储到日志log文件中,实时采集到Kafka消息队列,实时消费...

  • Kafka--01概述

    Kafka是大数据生态中非常重要的一个基础组件,其作为消息队列(MQ)负责数据的存储与分发。与其他消息队列相比,K...

  • EMQ X + ClickHouse 实现物联网数据接入与分析

    物联网数据采集涉及到大量设备接入、海量的数据传输,EMQ X 物联网消息中间件 与 ClickHouse 联机分析...

  • 数据仓库搭建

    全流程:数据采集->数据存储->数据分析->数据呈现 数据采集 首先我们从数据采集来说,数据采集的数据主要来自于日...

  • streaming

    为什么要用消息队列?比如有很多数据源在采集产生数据,如果直接把数据扔给spark streaming,可能各个产生...

  • 数据采集与存储

    时效性的要求比较宽松时,一个简单文件传输或者Sqoop任务适合作为采集数据的工具,HDFS适合作为主要存储位置。 ...

  • kafka入门

    什么是消息队列? 存储数据的队列,借助消息队列可以做到异步、解耦、削峰。 kafka是消息队列模型是怎么样的? P...

  • 《分布式技术原理与算法解析》学习笔记Day19

    分布式通信:消息队列 什么是消息队列? 队列是一种具有先进先出特点的数据结构,消息队列是基于队列实现的、存储具有特...

  • Redis服务器的启动和停止使用脚本或服务命令

    Redis是一种内存存储(in-memory)数据结构存储,可以用做数据库、Cache和消息队列 使用Redis内...

网友评论

      本文标题:数据采集与存储(一、数据接入消息队列)

      本文链接:https://www.haomeiwen.com/subject/fokhkxtx.html