美文网首页我爱编程
大数据Hadoop第一天

大数据Hadoop第一天

作者: 愤怒的_菜鸟 | 来源:发表于2017-01-10 15:37 被阅读24次

Hadoop的优点:
1.高可靠性:Hadoop按位存储和处理数据
2.高扩展性:Hadoop是在计算机集群中完成计算任务,这个集群可以方便的扩展到几千台
3.高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度快
4.高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配
5.低成本:Hadoop是开源的,集群是由廉价的PC机组成
Hadoop生态
1 HDFS--->hadoop分布式文件系统
2 MapReduce--->hadoop分布式计算
3Hbase--->hadoop建立在HDFS之上,面向列的NoSQL数据库,用于快速读/写大量数据
4 Zookeeper--->hadoop分布式协调服务
5 Oozie--->hadoop的一个可扩展的工作体系
6Pig--->hadoop中用于分析Hadoop数据集的脚本语言
7Hive --->hadoop中类似于SQL高级语言,用于运行存储在Hadoop上的查询语句
8 8Sqoop--->hadoop中一个连接工具,用于在关系数据库、数据仓库和Hadoop之间转移数据
9 Flumep--->hadoop中用于收集、汇总大数据,并将单台计算机的大量数据转移到HDFS
10Whirr是一组用来运行云服务的Java类库,将Hadoop集群运行于Amazon EC2、Rackspace等虚拟云计算平台。
11Mahout-->是Hadoop的一个机器学习和数据挖掘库
12 BigTop-->Hadoop子项目和相关组件,是一个用于打包和互用性测试的程序和框架
13 Ambari-->配置、管理和监控Hadoop集群

相关文章

  • 技术相关进程详解

    hadoop3大组件 hdfs:存贮数据 NameNode管理元数据 SencondaryNa...

  • hadoop简介

    Hadoop简介 *Hadoop 擅长处理一次写入,多次读出的数据 hadoop两大核心组件是 HDFS 和 ma...

  • Hadoop、Spark、Flink概要

    Hadoop,Spark、Flink是目前重要的三大分布式计算系统 · Hadoop用于离线复杂大数据处理·Spa...

  • 与 Hadoop 对比,如何看待 Spark 技术?

    Hadoop 首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台...

  • 与 Hadoop 对比,如何看待 Spark 技术?

    Hadoop 首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台...

  • hdfs文件迁移

    hadoop跨集群之间迁移HDFS数据 不同hadoop集群之间迁移hive数据 hadoop跨集群之间迁移hiv...

  • Hadoop知识点总结

    1. 什么是Hadoop 大数据处理的分布式系统 2. Hadoop****生态圈 三大核心: HDFS集群:分布...

  • Hadoop:1、Hadoop基础与编译

    Hadoop基础 大数据概述 Hadoop与Hadoop生态圈 Hadoop 狭义: 软件(HDFS、MapRe...

  • 大数据

    一、大数据的特点 数据量大;数据生成快;数据形式多样;数据价值大。 二、HDFS hadoop分布式文件系统。 特...

  • Hadoop的数据采集框架

    问题导读:Hadoop数据采集框架都有哪些?Hadoop数据采集框架异同及适用场景? Hadoop提供了一个高度容...

网友评论

    本文标题:大数据Hadoop第一天

    本文链接:https://www.haomeiwen.com/subject/kmgkbttx.html