美文网首页数据工程师
Hadoop软件栈(生态系统)

Hadoop软件栈(生态系统)

作者: 苟雨 | 来源:发表于2017-07-11 12:38 被阅读13次
Hadoop软件栈(生态系统)

Hadoop是Apache开源项目,是一个分布式大数据处理系统。Hadoop由Doug Cutting和Mike Cafarella在2005年创造。现在已经重构到Yarn(Hadoop2.0)!Mapreduce是一个批处理框架用于大数据集的计算,它简单而且强大!使用Hadoop系统可以简单的实现对大量数据的有效管理!新版的YARN的核心组件包括job tracker, resource management(资源管理器),job scheduling(资源调度器) 和monitoring(监控器)。HDFS(分布式文件系统)作为后台文件系统。Mapreduce成为一个独立的组件,YARN也可以集成Apache PIG, Apache Hive,HBase(列值数据库)等其他的处理组件。其他组件:

Oozie,它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。

Sqoop,实现SQL数据库与HDFS的双向交互。

Tez 一个新的分布式执行框架,支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。它并不直接面相最终用户,但如果HBASE,HIVE等产品使用Tez将大幅提高速度!

Spark 传统Hadoop的替代者,使用内存计算提高了近100倍的速度,可以简单的执行复杂的计算,而且很好的支持机器学习。它可以容易的集成到YARN中!

相关文章

网友评论

    本文标题:Hadoop软件栈(生态系统)

    本文链接:https://www.haomeiwen.com/subject/jcgphxtx.html