大数据入门（三）

作者: 裘马轻狂大帅 | 来源:发表于2019-05-30 08:16 被阅读0次

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。

当前Flume有两个版本Flume 0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flume-og有很大不同，使用时请注意区分。

YARN(Yet Another Resource Negotiator, a framework for job scheduling and cluster resource management)，Yarn是下一代mapreduce，主要解决原始的Hadoop扩展性较差，不支持多种计算框架而提出的，YARN的优秀点是什么，践行分布式框架设计和并行化开发时有什么启发。希望这能加深Hadoop理解和算法开发思路扩展，如TensorFlow的多核任务分配机制、分布式任务分配机制等。

Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型，而且高效地支持更多的计算模式，包括交互式查询和流处理。在处理大规模数据集的时候，速度是非常重要的。Spark的一个重要特点就是能够在内存中计算，因而更快。即使在磁盘上进行的复杂计算，Spark依然比MapReduce更加高效。

网友评论

超级大数据

本文标题：大数据入门（三）

本文链接：https://www.haomeiwen.com/subject/ruwptctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

大数据入门（三）

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

超级大数据