美文网首页
我的名字叫hadoop

我的名字叫hadoop

作者: 我脱下短袖 | 来源:发表于2019-02-12 13:54 被阅读0次

Hadoop名字的产生背景

Hadoop之父Doug Cutting看到他儿子在牙牙学语时,抱着黄色小象,亲昵的叫hadoop,他灵光一闪,就把这技术命名为Hadoop,而且还用了黄色小象作为标示Logo,不过,事实上的小象 瘦瘦长长,不像Logo上呈现的那么圆胖。“我儿子现在17岁了,所以就把小象给我了,有活动时就带着小象出席,没活动时,小象就丢在家里放袜子的抽屉里。” Doug Cutting大笑着说

来自漆黑狭小的黑屋里

大家好,我叫hadoop。这个名字在很多小孩子牙牙学语时都很容易叫出来的声音,很神奇吧?其实我也像小孩子一样,从孕育生命到出生之前一直生活在狭小漆黑的黑屋里,我的眼睛不能睁开,因为睁开了也什么都看不见。我一直不停的被改造,我原来是因为Doug Cutting做一个爬虫项目时候想如何把爬取的数据存储以及计算的,但正好是因为有谷歌的三大论文公开出来之后,我才有了更好的发展。

出生之时我需要一个叫“解压”的小伙伴,“解压”还有个孪生兄弟叫“压缩”,“压缩”也和我经常玩,把背包压缩一下,不带一点重复的东西,减少重量的负担。“压缩”和我在网络传输上也有非常出色的角色,运行效率也是提升不少,但是压缩和解压的时间也是会占用一点时间的,所以是否用压缩还是需要权衡一下的。

我来自黑黑的小屋啊,我需要“解压”这个好伙伴把我解压到Linux服务器上,让我舒展自己,让我能看清自己。我看着自己身上的三个组件,我很好奇它们都是干什么的,能吃吗,能掏出来玩玩吗?吃是不能吃的,掏可以掏出来玩。但是,不能掏的是HDFS组件。因为很多小伙伴离不开我的hdfs组件,比如spark小伙伴啊,它没有自己的存储系统,常常需要我的hdfs组件才能跑起来。外界传说未来我和spark也是一个非常不错而且也是受欢迎的组合,所以我要好好保护hdfs才是。

我看着自己身上的hdfs组件,拉长过来就是hadoop distributed file system这串英文,翻译过来是hadoop分布式文件系统,意思就是多个节点的文件树状结构组成的,文件形式可以以任何格式进行存储的,比如二进制文件、图片、音频以及视频。hdfs架构中也有三个组件,它们分别是namenode,datanode和secondarynamenode。

secondarynamenode可以没有,但是namenode和datanode绝对不可以没有。namenode相当于hdfs架构的大脑,指挥datanode做读写数据,要注意的是,datanode不会删除数据,只是给要删除的数据打上标记,datanode要写数据的时候覆盖掉打上被标记的数据就可以了。而secondarynamenode作为namenode的备份,以防大脑阶段性失忆。

我还有身上的yarn组件和mapreduce组件,把它们掏出来看了下,我看到了,yarn有个核心在于调度器,调度器也分为很多种,比如公平调度器、容量调度器以及FIFO先进先出调度器。yarn架构其实也有离不开的组件,它们就是resourcemanager和nodemanager。而resourcemanager正是调度管理器,管理着每一个任务的调度。忘了说了mapreduce组件,mapreduce就是一干活的,负责搬运数据以及计算数据,它的上级领导就是nodemanager封装的container。

每一个nodemanager对应着一个datanode,而且这两个节点必须在同一linux操作系统上。因为datanode存储着几块相同大小的数据,nodemanager里面封装的container调用map阶段任务的时候,正好可以读取本地上的数据,减少网络传输上的负荷。reduce阶段写入数据也是正好是在datanode节点上,这样map阶段读取数据的时候很方便在本地上读取,一个数据块对应着一个map。

如果不是一个数据块对应着一个map,就会大大增加IO流运行时间。

(来自大数据算法笔记公众号)

相关文章

  • 我的名字叫hadoop

    第一回 新入环境 我的名字是hadoop,我一出生我的爸爸雅虎就给我取了这样一个名字:hadoop,我也不知道为什...

  • 我的名字叫hadoop

    Hadoop名字的产生背景 Hadoop之父Doug Cutting看到他儿子在牙牙学语时,抱着黄色小象,亲昵的叫...

  • Hadoop2.8.5伪分布运行wordcount

    首先要运行hadoop 注意:我的Hadoop目录为 /usr/hadoop 查看 Java 进程如下 注意,确实...

  • 一、初识Hadoop

    一、Hadoop能做什么 二、Hadoop组件 三、Hadoop的优势 三、Hadoop生态 四、Hadoop选型

  • hadoop 安装问题总结

    hadoop的日志目录(/home/hadoop/app/hadoop-2.6.4/logs) 1、hadoop启...

  • spark2.1源码编译

    我的hadoop版本:hadoop-2.6.0-cdh5.7.0我的scala版本:2.11.8我的hive版本:...

  • 我的名字叫

    我不在意被误解 亦是不被接受 或许这生命曾美丽如谎言 迷离如题于质疑 但我伸手轻抚去忧愁 玩笑如歌的去面对种种是非...

  • 我的名字叫……

    前不久看过一篇介绍中国人名变迁的文章。当时我也是认为以前的人名更有内涵,更能体现大中国博大精深的文化底蕴。 后来仔...

  • 名字叫做a的我

    如果世界上存在有一个和我一模一样叫做a的我,我一定不想让她认识我吧。 因为我觉得她一定会可怜我,啊呀怎么会有那么可...

  • 论Hadoop在大数据领域重要性,应该从入门谈起,Hadoop安

    知识要点: 什么是Hadoop 运行Hadoop先决条件 安装配置Hadoop 什么是Hadoop(Hadoop技...

网友评论

      本文标题:我的名字叫hadoop

      本文链接:https://www.haomeiwen.com/subject/rdxkeqtx.html