前言
之前咱们在陆续更新大数据学习内容,受到了很多读者朋友的欢迎。也有很多朋友私信说想要大数据实战的内容更新,今天小编就给大家带来这本《基于Hadoop和Spark的大数据开发实战》。
内容摘要
大数据技术让我们以一种前所未有的方式,对海量数据进行分析,从中获得有巨大价值的产品和服务,最终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop 分布式文件系统(HDFS)、Hadoop 分布式计算框架MlapReduce, Hadoop 资源调度框架YARN与Hadoop新特性、Hadoop 分布式数据库HBase.数据仓库Hive.大数据离线处理辅助系统、Spark Core. Spark SQL. Spark Streaning 等知识。
本书紧密结合实际应用,运用大量案例说明和实践,提炼含金量十足的开发经验。另外,本书配以多元的学习资源和支持服务,包括视频教程。案例素材下载。学习交流社区。讨论组等学习内容,为读者带来全方位的学习体验。
本书适合作为计算机、大数据相关专业的教材使用,也适合具有一定Linux、Java开发经验,并且想从事大数据开发的人员使用,也可作为大数据分析与运维人员的参考用书。
简述
本书以Hadoop和Spark为核心,阐述了基于这两种通用大数据处理平台的应用开发技术。
在Hadoop生态圈中,从HDFS初识分布式存储系统;以MapReduce详解分布式计算的步骤;利用HBase分析适合非结构化数据存储的分布式数据库;利用Hive分析将SQL查询转化为分布式计算的过程:并结合项目案例“音乐排行榜”练习Hadoop核心技能点的运用;同时,介绍了几种离线处理系统中常用的辅助工具。
在Spark生态圈中,从Scala开始介绍多范式编程;并从Spark Core.、Spark SQL、Spark Streaming三个方面来分析对比Hadoop生态圈中的分布式计算、Hive流式计算的可替换方案和它们各自的优势。
章节介绍
本书共12章,内容包括Hadoop初体验、Hadoop 分布式文件系统、Hadoop 分布式计算框架、Hadoop新特性、Hadoop 分布式数据库、Hadoop 综合实战一音乐排行榜、数据仓库Hive、大数据离线处理辅助系统、Spark 基础、Spark Core、Spark SQL和Spark Streaming。具体内容安排如下。
➢第1章是对Hadoop的总体概述,介绍大数据基本概念、Hadop生态圈、Hadoop与大数据的关系以及Hadoop安装部署的详细步骤。
➢第2章是对HDFS的介绍,主要包括HDFS的体系结构、Shell操作以及通过Java API实现访间。
➢第3 章是对MapReduce分布式计算框架的讲解,包括MapReduce的编程模型、编写和运行MapReduce程序。
➢第4章是对 Hadoop新的资源调度框架YARN及Hadoop新特性的讲解,以及如何实现Hadoop高可用集群。
➢第5章是对HBase数据库的讲解,介绍HBase的安装及其使用方法。
➢第6章通过案例“音乐排行榜”的实现,对前面各章的技能点做一个阶段回顾与总结,介绍如何通过HDFS、MapReduce与HBase的结合使用完成Hadoop离线批处理应用开发。
➢第7章是对 Hive的讲解,介绍如何使用类似于SQL查询的方式来执行MapReduce计算。
➢第8章介绍 Sqoop. Azkaban 这两种在开发离线处理系统时常用的辅助工具。
➢第9章是对Spark的基本介绍,包括Spark的安装与运行、Spark的开发语言Scala。
➢第10章是对Spark的核心RDD的详解,介绍Spark Core的编程模型以及Spark应用程序的开发。
➢第11 章是对Spark SQL的详解,包括常用的SQL on Hadoop框架、Spark SQL的编程方法以及Spark SQL对多种外部数据源的操作。
➢第12 章是对Spark Streaming 的详解,包括Spark Streaming核心概念、常用的流处理系统,以及使用Spark Streaming进行流处理应用的开发。
技能训练
➢掌握Hadoop运行环境的部署。
➢掌握大数据文件在HDFS中的存储。
➢掌握MapReduce编程模型以及MapReduce应用开发方法。
➢掌握YARN的运行原理。
➢掌握HBase数据库的操作方法。
➢掌握 Hive数据仓库的操作方法。
➢掌握常用离线 处理辅助系统Sqoop和Azkaban的用法。
➢掌握Scala基本编程方法。
➢掌握Spark RDD创建与操作。
➢掌握DataFrame编程方法。
➢掌握Spark Streaming对Socket、HDFS数据进行流式处理的方法。
➢了解Spark Streaming与Flume、Kafka的整合。
网友评论