美文网首页程序员IT在线课程
了解大数据(1)Hadoop的由来和功能

了解大数据(1)Hadoop的由来和功能

作者: employeeeee | 来源:发表于2018-11-01 14:39 被阅读3次

因为新工作是涉及到大数据的一些知识的,所以查阅了一些大数据相关信息的资料.主要《大数据处理之道》这本书给了比较大的帮助,自己顺便整理一下自己觉得有用的东西.

Hadoop的由来和功能

名字的由来
  • Doug Cutting "Hadoop之父",cutting在创建Hadoop的时候.他的儿子给他的玩具小象起名叫做hadoop,cutting觉得名字不错,就把这个玩具的名字借用了,包括logo,也是一只黄色的小象,感觉还挺逗的.
Hadoop的诞生
  • Doug Cutting最初的公司因为互联网泡沫经济破产后,进入了自由人职业的状态,然后闭关修行,准备以一种低开销的方式来构建网页中的大量算法.然后他看到了2014年google发表的两篇论文.一篇是关于GFS(goole file system),构思一个可拓展的大型数据密集型应用的分布式文件系统.另一篇是关于MapReduce的,是一种处理大型数据生成相关执行的编程模型.cutting在自由人的时间里,完成了这两篇论文的想法,Hadoop诞生了.
    然后在为期四年的自由人职业后,cutting准备找一家靠谱的互联网公司,完善hadoop,最后选择了雅虎,两年后雅虎使用Hadoop启动了第一个应用项目
    "webmap"(计算网页间链接关系的算法)
Hadoop的架构和核心成员
image.png
  1. MapReduce 一种编程模型.使得大规模数据可以并行计算.从概念上看,MapReduce有连个部分 Map(映射)和Reduce(规约),此模型包含着若干的函数和接口.得益于函数式编程思想,以及从矢量编程语言里借来的特性.可以使编程人员在不懂分布式进行编程的情况下,也能将自己的程序运行在分布式系统上.
  2. HDFS 分布式文件系统 可以提供高吞吐量的数据访问,适合大规模数据集上的应用.容错率也很高
  3. Hive: 数据仓工具,最近问的很多公司的数据仓基本都是Hive,可以将结构化的数据文件映射为一张数据库表,并提供完整的Sql查询功能,可以将sql语句转换为MapReduce任务执行,优点是学习成本低.不比开发专门的Mapreduce应用.
  4. HBase列式数据库,适合非结构化数据存储
  5. pig:过程语言 可以用来查询大型半结构化数据集
  6. Zookeeper:配置维护 名字服务 分布式同步 组服务等,封装好复杂容易出错的关键服务 将简单易用的接口和性能高效,功能稳定的系统 提供给用户.
  7. Mahout 一个在Hadoop上运行的可拓展的机器学习和数据挖掘类库(分类和聚类算法)
  8. sqoop : 在数据库 和 HDFS直接高效传输的工具
  9. Avro : 负责数据序列化
Hadoop适用场景

1.超级大的数据
2.离线数据(所以流式数据一般会涉及到storm sparkstreaming)
3.并行计算
4,数据计算单元比较大

相关文章

网友评论

    本文标题:了解大数据(1)Hadoop的由来和功能

    本文链接:https://www.haomeiwen.com/subject/srqxxqtx.html