初识Hadoop（一）

初识Hadoop（一）

作者: RalapHao | 来源:发表于2019-02-24 19:39 被阅读0次

简介

起源于Nutch（全网搜索引擎），是apache开源框架，广义上来说，是一个更广泛的概念（Hadoop生态圈），主要作用是利用集群，根据用户自定义业务逻辑，对海量数据进行分布式处理，核心组件包括HDFS（分布式文件系统）、YARN（运算资源调度系统）、MAPREDUCE（分布式运算编程框架）。

Hadoop生态

Hadoop生态.png

HDFS：分布式文件系统
MAPREDUCE：分布式运算编程框架
YARN：运算资源调度系统
HIVE：基于大数据技术（文件系统+运算框架）的Sql数据仓库工具
ZOOKEEPER：分布式协调服务基础组件
HBASE：基于Hadoop的分布式海量数据库
MaHout：基于mapreduce/spark/flink等分布式运算框架的机器学习算法库
Oozie：工作流调度框架
Sqoop：数据导入导出工具
Flume：日志数据采集框架

数据处理流程

处理流程.png

数据采集：定制开发采集程序，或使用开源框架FLUME
数据预处理：定制开发MapReduce程序，运行于Hadoop集群上
数据仓库技术：基于hadoop之上的Hive
数据导出：基于hadoop的sqoop数据导入导出工具
数据可视化：定制开发web程序，或使用kettle等产品
流程调度：hadoop生态圈中的oozie工具或其他开源产品

相关文章

网友评论

本文标题：初识Hadoop（一）

本文链接：https://www.haomeiwen.com/subject/uvybyqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|初识Hadoop（一）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！