美文网首页
数据采集与存储

数据采集与存储

作者: 徐梦磊 | 来源:发表于2018-09-05 09:00 被阅读0次

    时效性的要求比较宽松时,一个简单文件传输或者Sqoop任务适合作为采集数据的工具,HDFS适合作为主要存储位置。

    当用户的需要从简单的批处理转向更高频率的更新时,传输时间要求不超过2分钟,就应该考虑Flume或Kafka之类的工具了。存储层可能需要变为HBase或Solr,这样插入与读取操作会获得更细的粒度。

    当要求提高到实时水平时,我们首先需要考虑内存,然后是永久性存储。如果磁盘在转,500ms的耗时是跑不掉了。基于这一点,我们开始进入流处理领域,采用Storm或Spark Streaming之类的工具。这里要强调的是,这些工具应该真正用于数据处理,而不是像Flume或Sqoop那样用于数据采集。

    相关文章

      网友评论

          本文标题:数据采集与存储

          本文链接:https://www.haomeiwen.com/subject/ramowftx.html