美文网首页
Hadoop生态圈初识

Hadoop生态圈初识

作者: pamperxg | 来源:发表于2017-08-03 11:26 被阅读0次
  • hadooop提供的功能:
    利用服务器集群,根据用户自定义的业务逻辑(利用hadoop的api),对海量数据进行分布式处理
    • 指的是一套开源软件平台,通常也指一个更广泛的概念-hadoop生态圈

三大核心组件

  • hdfs,分布式文件系统
  • yarn,资源调度
    resourcemanager

  • mapreduce,业务逻辑编程
    maptask,reducetask


zookeeper ,做资源协调,其实并没有管理权限
Hbase hive(sql)
oozie,askaban 工作流调度
mahout,mapreduce->flink
flume数据采集
sqoop,数据导入mysql


nutch+solor,爬虫+搜索引擎=google
google:gfs,mapreduce,bigtable
hadoop最早起源于nutch,hdfs,mapreduce,hbase
hadoop是PasS层解决方案之一(Iaas基础设施,pass平台,saas软件即服务)


  • 应用场景:
  • 网站或app点击流日志数据挖掘系统
    数据采集、数据预处理、导入hive仓库、ETL、报表统计、结果导入mysql、数据可视化(echarts)
  • 推荐:


    推荐系统架构

    kafka:支持实时快速读写
    storm/sparkstreming:实时处理

相关文章

网友评论

      本文标题:Hadoop生态圈初识

      本文链接:https://www.haomeiwen.com/subject/zcnpkxtx.html