Hadoop 1

Hadoop 1

作者: __method__ | 来源:发表于2020-10-20 09:49 被阅读0次

hadoop集群配置
1 Hadoop简介和编译 2018-05-11
Hadoop之Yarn
伪分布式部署yarn和MapReduce案例
HDFS基础命令
hadoop删除节点
Hadoop用户的无密码信任关系实验
hadoop 安装问题总结
Yarn
Hadoop安装

什么是Hadoop

Apache™ Hadoop® 是一个开源的, 可靠的(reliable), 可扩展的(scalable)分布式计算框架

允许使用简单的编程模型跨计算机集群分布式处理大型数据集
可扩展: 从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储
可靠的: 不依靠硬件来提供高可用性(high-availability)，而是在应用层检测和处理故障，从而在计算机集群之上提供高可用服务

Hadoop能做什么?

搭建大型数据仓库
PB级数据的存储处理分析统计等业务
- 搜索引擎
- 日志分析
- 数据挖掘
- 商业智能(Business Intelligence，简称：BI)
  Hadoop发展史
2003-2004年 Google发表了三篇论文
GFS：Google的分布式文件系统Google File System
MapReduce: Simplified Data Processing on Large Clusters
BigTable：一个大型的分布式数据库
2006年2月Hadoop成为Apache的独立开源项目( Doug Cutting等人实现了DFS和MapReduce机制)。
2006年4月— 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。
2008年4月— 赢得世界最快1TB数据排序在900个节点上用时209秒。
2008年— 淘宝开始投入研究基于Hadoop的系统–云梯。云梯总容量约9.3PB，共有1100台机器，每天处理18000道作业，扫描500TB数据。
2009年3月— Cloudera推出CDH（Cloudera’s Dsitribution Including Apache Hadoop）
2009年5月— Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。
2009年7月— Hadoop Core项目更名为Hadoop Common;
2009年7月— MapReduce和Hadoop Distributed File System (HDFS)成为Hadoop项目的独立子项目。
2012年11月— Apache Hadoop 1.0 Available
2018年4月— Apache Hadoop 3.1 Available
搜索引擎时代
有保存大量网页的需求(单机集群)
词频统计 word count PageRank
数据仓库时代
FaceBook推出Hive
曾经进行数分析与统计时, 仅限于数据库,受数据量和计算能力的限制, 我们只能对最重要的数据进行统计和分析(决策数据,财务相关)
Hive可以在Hadoop上运行SQL操作, 可以把运行日志, 应用采集数据,数据库数据放到一起分析
数据挖掘时代
啤酒尿不湿
关联分析
用户画像/物品画像
机器学习时代广义大数据
大数据提高数据存储能力, 为机器学习提供燃料
alpha go
siri 小爱天猫精灵

Hadoop核心组件

Hadoop是所有搜索引擎的共性问题的廉价解决方案

如何存储持续增长的海量网页: 单节点 V.S. 分布式存储
如何对持续增长的海量网页进行排序: 超算 V.S. 分布式计算
HDFS 解决分布式存储问题
MapReduce 解决分布式计算问题

Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.(分布式文件系统)

源自于Google的GFS论文, 论文发表于2003年10月
HDFS是GFS的开源实现
HDFS的特点:扩展性&容错性&海量数量存储
将文件切分成指定大小的数据块, 并在多台机器上保存多个副本
数据切分、多副本、容错等操作对用户是透明的

下面面这张图是数据块多份复制存储的示意

图中对于文件 /users/sameerp/data/part-0，其复制备份数设置为2, 存储的BlockID分别为1、3。
Block1的两个备份存储在DataNode0和DataNode2两个服务器上
Block3的两个备份存储在DataNode4和DataNode6两个服务器上

Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

分布式计算框架
源于Google的MapReduce论文，论文发表于2004年12月
MapReduce是GoogleMapReduce的开源实现
MapReduce特点:扩展性&容错性&海量数据离线处理

Hadoop YARN: A framework for job scheduling and cluster resource management.(资源调度系统)

YARN: Yet Another Resource Negotiator
负责整个集群资源的管理和调度
YARN特点:扩展性&容错性&多框架资源统一调度

相关文章

hadoop集群配置
配置3台机器 hadoop1 hadoop2 hadoop3 Hadoop1 | hadoop2 ...
1 Hadoop简介和编译 2018-05-11
1.Hadoop官网http://hadoop.apache.org/2.hadoop版本说明①.hadoop1....
Hadoop之Yarn
1 Hadoop1.x和Hadoop2.x架构区别在Hadoop1.x时代，Hadoop中的MapReduce同...
伪分布式部署yarn和MapReduce案例
1、配置etc/hadoop/mapred-site.xml： [hadoop@hadoop000 hadoop]...
HDFS基础命令
1、hadoop fs hadoop fs = hdfs dfs 2、ls命令 1.hadoop fs ...
hadoop删除节点
现在有hadoop1 ,hadoop2,hadoop3.hadoop4. 要删除hadoop4节点. 1）在nam...
Hadoop用户的无密码信任关系实验
1、新建用户hadoop useradd hadoop 2、切换到hadoop用户 su - hadoop 3、...
hadoop 安装问题总结
hadoop的日志目录（/home/hadoop/app/hadoop-2.6.4/logs） 1、hadoop启...
Yarn
5.1 Hadoop1.x和Hadoop2.x架构区别在Hadoop1.x时代，Hadoop中的MapReduc...
Hadoop安装
Hadoop安装一、 Hadoop 1、安装安装并配置hadoop-2.6.4(在master中) (1)将...

网友评论

本文标题：Hadoop 1

本文链接：https://www.haomeiwen.com/subject/aevrmktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Hadoop 1|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！