大数据Hadoop第一天

作者: 愤怒的_菜鸟 | 来源:发表于2017-01-10 15:37 被阅读24次

技术相关进程详解
hadoop简介
Hadoop、Spark、Flink概要
与 Hadoop 对比，如何看待 Spark 技术？
与 Hadoop 对比，如何看待 Spark 技术？
hdfs文件迁移
Hadoop知识点总结
Hadoop：1、Hadoop基础与编译
大数据
Hadoop的数据采集框架

Hadoop的优点：
1.高可靠性：Hadoop按位存储和处理数据
2.高扩展性：Hadoop是在计算机集群中完成计算任务，这个集群可以方便的扩展到几千台
3.高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度快
4.高容错性：Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配
5.低成本：Hadoop是开源的，集群是由廉价的PC机组成
Hadoop生态
1 HDFS--->hadoop分布式文件系统
2 MapReduce--->hadoop分布式计算
3Hbase--->hadoop建立在HDFS之上，面向列的NoSQL数据库，用于快速读/写大量数据
4 Zookeeper--->hadoop分布式协调服务
5 Oozie--->hadoop的一个可扩展的工作体系
6Pig--->hadoop中用于分析Hadoop数据集的脚本语言
7Hive --->hadoop中类似于SQL高级语言，用于运行存储在Hadoop上的查询语句
8 8Sqoop--->hadoop中一个连接工具，用于在关系数据库、数据仓库和Hadoop之间转移数据
9 Flumep--->hadoop中用于收集、汇总大数据，并将单台计算机的大量数据转移到HDFS
10Whirr是一组用来运行云服务的Java类库,将Hadoop集群运行于Amazon EC2、Rackspace等虚拟云计算平台。
11Mahout-->是Hadoop的一个机器学习和数据挖掘库
12 BigTop-->Hadoop子项目和相关组件，是一个用于打包和互用性测试的程序和框架
13 Ambari-->配置、管理和监控Hadoop集群