前言

之前咱们在陆续更新大数据学习内容，受到了很多读者朋友的欢迎。也有很多朋友私信说想要大数据实战的内容更新，今天小编就给大家带来这本《基于Hadoop和Spark的大数据开发实战》。

内容摘要

大数据技术让我们以一种前所未有的方式，对海量数据进行分析，从中获得有巨大价值的产品和服务，最终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术进行讲解，主要内容包括Hadoop环境配置、Hadoop 分布式文件系统(HDFS)、Hadoop 分布式计算框架MlapReduce, Hadoop 资源调度框架YARN与Hadoop新特性、Hadoop 分布式数据库HBase.数据仓库Hive.大数据离线处理辅助系统、Spark Core. Spark SQL. Spark Streaning 等知识。

本书紧密结合实际应用，运用大量案例说明和实践，提炼含金量十足的开发经验。另外，本书配以多元的学习资源和支持服务，包括视频教程。案例素材下载。学习交流社区。讨论组等学习内容，为读者带来全方位的学习体验。

本书适合作为计算机、大数据相关专业的教材使用，也适合具有一定Linux、Java开发经验，并且想从事大数据开发的人员使用，也可作为大数据分析与运维人员的参考用书。

简述

本书以Hadoop和Spark为核心，阐述了基于这两种通用大数据处理平台的应用开发技术。

在Hadoop生态圈中，从HDFS初识分布式存储系统;以MapReduce详解分布式计算的步骤;利用HBase分析适合非结构化数据存储的分布式数据库;利用Hive分析将SQL查询转化为分布式计算的过程:并结合项目案例“音乐排行榜”练习Hadoop核心技能点的运用;同时，介绍了几种离线处理系统中常用的辅助工具。

在Spark生态圈中，从Scala开始介绍多范式编程;并从Spark Core.、Spark SQL、Spark Streaming三个方面来分析对比Hadoop生态圈中的分布式计算、Hive流式计算的可替换方案和它们各自的优势。

章节介绍

本书共12章，内容包括Hadoop初体验、Hadoop 分布式文件系统、Hadoop 分布式计算框架、Hadoop新特性、Hadoop 分布式数据库、Hadoop 综合实战一音乐排行榜、数据仓库Hive、大数据离线处理辅助系统、Spark 基础、Spark Core、Spark SQL和Spark Streaming。具体内容安排如下。

➢第1章是对Hadoop的总体概述，介绍大数据基本概念、Hadop生态圈、Hadoop与大数据的关系以及Hadoop安装部署的详细步骤。

➢第2章是对HDFS的介绍，主要包括HDFS的体系结构、Shell操作以及通过Java API实现访间。