美文网首页
数据采集与存储

数据采集与存储

作者: 徐梦磊 | 来源:发表于2018-09-05 09:00 被阅读0次

时效性的要求比较宽松时,一个简单文件传输或者Sqoop任务适合作为采集数据的工具,HDFS适合作为主要存储位置。

当用户的需要从简单的批处理转向更高频率的更新时,传输时间要求不超过2分钟,就应该考虑Flume或Kafka之类的工具了。存储层可能需要变为HBase或Solr,这样插入与读取操作会获得更细的粒度。

当要求提高到实时水平时,我们首先需要考虑内存,然后是永久性存储。如果磁盘在转,500ms的耗时是跑不掉了。基于这一点,我们开始进入流处理领域,采用Storm或Spark Streaming之类的工具。这里要强调的是,这些工具应该真正用于数据处理,而不是像Flume或Sqoop那样用于数据采集。

相关文章

  • 数据采集与存储

    时效性的要求比较宽松时,一个简单文件传输或者Sqoop任务适合作为采集数据的工具,HDFS适合作为主要存储位置。 ...

  • 数据仓库搭建

    全流程:数据采集->数据存储->数据分析->数据呈现 数据采集 首先我们从数据采集来说,数据采集的数据主要来自于日...

  • 阿里云助理工程师(ACA)考证

    课时6 大数据存储、计算与分析 数据分析: 数据采集与处理 数据质量与管理 机器学习 数据可视化 数据分析流程是基...

  • 数据挖掘与学习在企业大数据平台应用中面临的技术挑战

    企业大数据的实施过程中,仍然面临很多技术挑战,涉及数据采集与获取、数据存储与查询、数据处理与计算、数据挖掘与学习、...

  • 数据处理与计算在企业大数据平台应用中面临的技术挑战

    企业大数据的实施过程中,仍然面临很多技术挑战,涉及数据采集与获取、数据存储与查询、数据处理与计算、数据挖掘与学习、...

  • 企业大数据平台面临的技术挑战

    企业大数据的实施过程中,仍然面临很多技术挑战,涉及数据采集与获取、数据存储与查询、数据处理与计算、数据挖掘与学习、...

  • 网络数据采集之 python与 MySQL

    首次做网络数据采集的时候,当准备对采集到的数据进行存储这里卡了很久。主要是由于python与数据链接的中间件,网上...

  • 携程的数据采集系统架构

    实时数据采集系统 原文链接 1. 典型的数据采集分析系统 数据采集数据传输数据清洗/建模/存储数据统计/分析/挖掘...

  • 用户画像-中篇(字典输出)

    上一篇二哈介绍了用户画像的数据采集过程,这回我们来说说数据采集之后的处理。 1、数据存储&更新 1.1、存储:由于...

  • 大数据(一)

    一.大数据生命周期 采集(数据获取)、预处理(数据质量)、描述存储查询(数据管理)、大数据计算(知识发现)、推理与...

网友评论

      本文标题:数据采集与存储

      本文链接:https://www.haomeiwen.com/subject/ramowftx.html