美文网首页编程语言爱好者
大数据时代|Hadoop和Spark开发实战,助你深度掌握大数据

大数据时代|Hadoop和Spark开发实战,助你深度掌握大数据

作者: Java领域指导者 | 来源:发表于2020-05-12 22:21 被阅读0次

    前言

    之前咱们在陆续更新大数据学习内容,受到了很多读者朋友的欢迎。也有很多朋友私信说想要大数据实战的内容更新,今天小编就给大家带来这本《基于Hadoop和Spark的大数据开发实战》。

    内容摘要

    大数据技术让我们以一种前所未有的方式,对海量数据进行分析,从中获得有巨大价值的产品和服务,最终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop 分布式文件系统(HDFS)、Hadoop 分布式计算框架MlapReduce, Hadoop 资源调度框架YARN与Hadoop新特性、Hadoop 分布式数据库HBase.数据仓库Hive.大数据离线处理辅助系统、Spark Core. Spark SQL. Spark Streaning 等知识。

    本书紧密结合实际应用,运用大量案例说明和实践,提炼含金量十足的开发经验。另外,本书配以多元的学习资源和支持服务,包括视频教程。案例素材下载。学习交流社区。讨论组等学习内容,为读者带来全方位的学习体验。

    本书适合作为计算机、大数据相关专业的教材使用,也适合具有一定Linux、Java开发经验,并且想从事大数据开发的人员使用,也可作为大数据分析与运维人员的参考用书。

    简述

    本书以Hadoop和Spark为核心,阐述了基于这两种通用大数据处理平台的应用开发技术。

    在Hadoop生态圈中,从HDFS初识分布式存储系统;以MapReduce详解分布式计算的步骤;利用HBase分析适合非结构化数据存储的分布式数据库;利用Hive分析将SQL查询转化为分布式计算的过程:并结合项目案例“音乐排行榜”练习Hadoop核心技能点的运用;同时,介绍了几种离线处理系统中常用的辅助工具。

    在Spark生态圈中,从Scala开始介绍多范式编程;并从Spark Core.、Spark SQL、Spark Streaming三个方面来分析对比Hadoop生态圈中的分布式计算、Hive流式计算的可替换方案和它们各自的优势。

    章节介绍

    本书共12章,内容包括Hadoop初体验、Hadoop 分布式文件系统、Hadoop 分布式计算框架、Hadoop新特性、Hadoop 分布式数据库、Hadoop 综合实战一音乐排行榜、数据仓库Hive、大数据离线处理辅助系统、Spark 基础、Spark Core、Spark SQL和Spark Streaming。具体内容安排如下。

    ➢第1章是对Hadoop的总体概述,介绍大数据基本概念、Hadop生态圈、Hadoop与大数据的关系以及Hadoop安装部署的详细步骤。

    ➢第2章是对HDFS的介绍,主要包括HDFS的体系结构、Shell操作以及通过Java API实现访间。

    ➢第3 章是对MapReduce分布式计算框架的讲解,包括MapReduce的编程模型、编写和运行MapReduce程序。

    ➢第4章是对 Hadoop新的资源调度框架YARN及Hadoop新特性的讲解,以及如何实现Hadoop高可用集群。

    ➢第5章是对HBase数据库的讲解,介绍HBase的安装及其使用方法。

    ➢第6章通过案例“音乐排行榜”的实现,对前面各章的技能点做一个阶段回顾与总结,介绍如何通过HDFS、MapReduce与HBase的结合使用完成Hadoop离线批处理应用开发。

    ➢第7章是对 Hive的讲解,介绍如何使用类似于SQL查询的方式来执行MapReduce计算。

    ➢第8章介绍 Sqoop. Azkaban 这两种在开发离线处理系统时常用的辅助工具。

    ➢第9章是对Spark的基本介绍,包括Spark的安装与运行、Spark的开发语言Scala。

    ➢第10章是对Spark的核心RDD的详解,介绍Spark Core的编程模型以及Spark应用程序的开发。

    ➢第11 章是对Spark SQL的详解,包括常用的SQL on Hadoop框架、Spark SQL的编程方法以及Spark SQL对多种外部数据源的操作。

    ➢第12 章是对Spark Streaming 的详解,包括Spark Streaming核心概念、常用的流处理系统,以及使用Spark Streaming进行流处理应用的开发。

    技能训练

    ➢掌握Hadoop运行环境的部署。

    ➢掌握大数据文件在HDFS中的存储。

    ➢掌握MapReduce编程模型以及MapReduce应用开发方法。

    ➢掌握YARN的运行原理。

    ➢掌握HBase数据库的操作方法。

    ➢掌握 Hive数据仓库的操作方法。

    ➢掌握常用离线 处理辅助系统Sqoop和Azkaban的用法。

    ➢掌握Scala基本编程方法。

    ➢掌握Spark RDD创建与操作。

    ➢掌握DataFrame编程方法。

    ➢掌握Spark Streaming对Socket、HDFS数据进行流式处理的方法。

    ➢了解Spark Streaming与Flume、Kafka的整合。

    文章目录

    由于篇幅原因,小编就不在这里过多展示了,有对大数据Hadoop和Spark开发实战有兴趣的,可以关注小编,并转发加微信 bjmsb1 来免费领取吧~~~附送视频、文档学习资料。

    相关文章

      网友评论

        本文标题:大数据时代|Hadoop和Spark开发实战,助你深度掌握大数据

        本文链接:https://www.haomeiwen.com/subject/oicwnhtx.html