美文网首页大数据学习程序员
大数据学习思路分解1:hadoop学习

大数据学习思路分解1:hadoop学习

作者: 6816ee4e9ca0 | 来源:发表于2019-03-04 14:40 被阅读9次

    我们在上篇文章中大概的了解了大数据学习的一些思路(路线),主要包括以下几点(Linux+hadoop+机器学习+流式计算+内存计算+云平台开发),当然还有很多知识点,我们就以这个课程大纲来进行讲解学习。

    而在大数据开发中hadoop是最先学习的重点。为了让大家更加准确和快速的入门学习大数据,我们这篇文章就和大家介绍一下大数据Hadoop主要需要学习哪些方面的知识。

    在这里还是要推荐下我自己建的大数据学习群:199427210,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。

    hadoop具体的学习路线,主要分为以下几步:

    1.我们要掌握Linux的安装及基本操作

    需要学习Linux的安装、了解其常用命令有哪些、系统进程管理基本原理、启动流程、系统文件权限管理、网络配置和维护等等

    这时候只需要掌握基础即可,后边遇到问题再学习,这样才不会混乱,学的才扎实。

    2. 搭建Hadoop分布式环境

    我们要做的是在自己的电脑上安装Linux,然后准备环境nat配置,搭建Hadoop集群先让Hadoop在自己的电脑上跑起来。使用VMware来搭建。

    这时候我们会Host配置、IP配置、SSH免密登录等。

    3.学习HDFS分布式文件系统

    这一步要学习架构分析、容灾容错策略、local数据策略、数据块概念、机架感应,功能逻辑实现等。要真正的去敲敲,掌握Linux下HDFS Shell常用命令的使用。

    4.学习MapReduce计算框架

    MapReduce是Hadoop核心编程模型。在Hadoop中,数据处理核心就是MapReduce程序设计模型。这一步需要学的东西很多,大家一定要有耐心,把MR的知识学牢固。

    首先我们需要学习MR的基本原理、任务执行流程、Shuffle策略。自己动手写一个MR任务,来实现wordcount。然后要学习表单join、表单查询、数据清洗、全局排序、多目录输入输出、自定义partition分区,掌握二分法算法。

    接下来学习自然语言处理方法(NLP),掌握如何提取关键词,TF-IDF算法。这里我们可以实践一下,统计文本中的词频。

    学习中文分词,分词的质量直接影响数据挖掘的质量。

    5.学习Strom流式计算

    Storm是一个开源分布式实时计算系统,它可以实时可靠地处理流数据。

    这一步我们要知道Hadoop和Storm的区别,知道他们如何进行互补。了解Storm的体系架构、Zookeeper在架构中的作用和数据流处理的过程。弄懂Storm的工作原理和核心组件(Spout、Bolt)

    6.学习Zookeeper分布式协作服务

    这一步我们学会数据管理的树形结构,学会根据应用场景选择不同类型的节点、节点权限管理ACL和监控机制。学会Zookeeper开源自带Client工具的Shell使用,开发java代码实现不同类型的节点进行新建、修改、删除和节点的监控。

    7.学习数据仓库工具Hive

    这一步要了解Hive的体系架构和其与mysql的对比。要掌握Mysql的基本知识、系统搭建标准SQL语(增删查改)。

    8.学习分布式存储系统Hbase

    这一步要掌握Hbase的体系架构(HMaster、HRegionServer、HStore、HFile、HLog),物理存储、数据逻辑存储、核心功能模块。

    9.项目实战

    最最重要的是项目的实战,任何的学习没有项目的应用都是徒劳,所以在一个知识学扎实之后要有相对应的项目来就行练手。

    细化一点要掌握Hbase表结构设计、Shell操作(增删查改)、javaAPI操作、数据迁移、备份与恢复。与MR结合实现批量导入与导出,与Hive结合使用,集群管理和性能调优。

    到这里,按照上边的路线认真学习,肯定能学好hadoop开发,在学习的时候一定要亲自动手去敲,要去不断的尝试,把看到的知识尽快转化为自己的技能,这样才能高效率的学会hadoop,学任何一门技术都是一样,需要实际动手。

    相关文章

      网友评论

        本文标题:大数据学习思路分解1:hadoop学习

        本文链接:https://www.haomeiwen.com/subject/rmhiuqtx.html