毕业后做了2年java开发的工作,平时工作很努力,现在带了几个人也算小有成就吧。但是经过我这2年的观察,觉得在java开发这个职位上发展起来太慢、太难了。
在和圈内的人聊天的时候,一致认定大数据行业正在风口浪尖,处于职业红利期,现在做Hadoop开发不论是职业发展,还是获得较高的薪资都比较容易,会java学Hadoop上手也快。所以前段时间决定转行做Hadoop开发。
前几天定下了一个Hadoop开发的工作,年薪25万,工资比之前做java开发翻了一倍,果然现在入行大数据待遇很好。
很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系
我学习的时候踩了很多坑,现在看来最多4个月就能搞定的事情,我竟然用了半年时间。都是因为第一次不懂、没人带,浪费了很多精力。我想分享一下我整理的在java基础上学习 Hadoop开发的路线,供大家借鉴。让大家在学习的时候少走弯路,更快的学会Hadoop。
下面说一下hadoop的学习路线。(有java基础)
我们要掌握Linux的安装及基本操作、Python安装及编程基础。
这时候只需要掌握基础即可,后边遇到问题再学习,这样才不会混乱,学的才扎实。
搭建Hadoop分布式环境
在电脑上安装Linux,环境nat配置,搭建Hadoop集群先让Hadoop跑起来。
学习HDFS分布式文件系统
这一步要学习架构分析、容灾容错策略等。要真正的去敲敲,掌握Linux下HDFS Shell常用命令的使用。
学习MapReduce计算框架(有java基础)
MapReduce是Hadoop核心编程模型。在Hadoop中,数据处理核心就是MapReduce程序设计模型。这一步需要学的东西很多,大家一定要有耐心,把MR的知识学牢固。
学习Strom流式计算(有java基础)
这一步我们要知道Hadoop和Storm的区别,知道他们如何进行互补。了解Storm的体系架构。
学习Zookeeper分布式协作服务(有java基础)
这一步我们要学会Zookeeper开源自带Client工具的Shell使用,开发java代码实现不同类型的节点进行新建、修改、删除和节点的监控。
学习数据仓库工具Hive
这一步要了解Hive的体系架构和其与mysql的对比,要掌握Mysql的基本知识。
学习分布式存储系统Hbase(有java基础)
这一步要掌握Hbase表结构设计、Shell操作(增删查改)、javaAPI操作、数据迁移、备份与恢复。与MR结合实现批量导入与导出,与Hive结合使用,集群管理和性能调优。
学习Spark
这一步要掌握SPark的编程模型、运行框架、作业提交、缓存策略、RDD、MLLib。
学习Scala语言
这一步要掌握Scala的常用语法、函数、元组等操作。
学习Spark开发技术
这一步要能够熟练使用MLLib,能够自己开发Scala的Spark任务,完成表格join、连接和文本串过滤等。
学习推荐系统
我们付出了大量的时间和精力学了前面的技术,最终我们要让它们发挥作用。我学的是现在比较热门的推荐系统,像今日头条、网易云音乐、电商等都需要推荐产品给用户,在这方面人才需求很大。
这一步我们可以找一些案例,研究着学习,要掌握主流的推荐算法
a.学习基于MR、Mahout的协同过滤算法,并进行效果对比。
b.学习基于Spark的协同过滤算法
我们学一门技术的时候,一定要注重实践,要亲自动手去写代码,不断的去尝试。就像开始学java一样,不要害怕遇到问题,问题是最好的老师。但是学习时最好能有人请教,可能一个问题自己1天想不透,别人一句话就给点通了,我前期学的时候就吃了这个亏,有问题好久解决不了,一度失去信心。网上提问回复的慢,解答的也不透彻。
我深知看书学习很难,我前期就是看了孙老师的hadoop视频才入的门。受益良多,孙老师是百度的Hadoop核心师,讲的很详细,内容包括Hadoop入门,Hadoop生态架构,Hadoop大型商业项目,百度的数据量大,是用来学Hadoop很好的案例。
网友评论