首先要搞清楚hadoop是什么,能做什么?
搞清楚下面的问题
Hadoop核心介绍、集群结构、伪分布搭建方案
HDFS底层原理、分布式搭建实现方案
HDFS中datanode以及namenode详解
Hadoop2.x集群搭、HA、集群常见问题以及HA部署
Yarn平台详解、HDFS总结
MapReduce工作流程、切片机制详解、Shuffle Sort介绍
Wordcount实例工作流程介绍、MapReduce总结
MapReduce实战案例以及Pagerank算法
Hive体系以及集群构建、
Hive HiveQL、数据类型、表结构、
Hive DML、DDL、select与客户端
Hive 自定义函数、Hive与JDBC
外部表分区表讲解、Hive优化
ZooKeeper集群、数据一致性与Paxos算法和数据模型讲解
写操作和ZooKeeper对应关系以及Watcher关系和集群管理
下面介绍几本书
《Hadoop权威指南》,这本书英文版已经出到第3版了,中文版是第2版。这本书内容比较全面。缺点是废话太多,书太厚,例子复杂,代码没写全,有些地方的代码是低版本API。
当然,在Hadoop快速发展的时代里,出现这些问题都是很正常的。我觉得等Hadoop稳定了,这本书继续改版的话,很有可能成为Hadoop的权威经典。
《Hadoop技术内幕-深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕-深入解析Hadoop Common和HDFS架构设计与实现原理》,这两本书是国人写的,非常之好,语言清晰易懂,叙述细致,校印精确,强烈推荐有志于Hadoop的同学人手一套。
很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系
《Hadoop实战》,英文书名是《Hadoop in Action》,这本书非常好,是从人类容易理解的方式阐述Hadoop如何入门的。
最近也在自学这方面内容。然后下了基本书,感觉这本还算不错:Data Analytics With Hadoop。
从基础开始介绍,然后内容涵盖了最常见的Hadoop,Hive, HBase, Spark等。附录也涵盖了如何简单的搭建这些系统。对于以data analytics 为目标的同学是非常适合的
网友评论