美文网首页数仓大数据,机器学习,人工智能我爱编程
8年京东大数据架构师推荐的大数据新手学习路线(新手必看)

8年京东大数据架构师推荐的大数据新手学习路线(新手必看)

作者: 5f1df32e8c44 | 来源:发表于2018-05-05 15:26 被阅读141次

    一、我们先要了解大数据的工作方向

    01.大数据工程师

    02.数据分析师

    03.大数据科学家

    04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)

    、大数据工程师的技能要求

    必须技能10条:

    01.Java高级(虚拟机、并发)

    02.Linux 基本操作

    03.Hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )

    04.HBase(JavaAPI操作+Phoenix )

    05.Hive(Hql基本操作和原理理解)

    06.Kafka 

    07.Storm

    08.Scala需要

    09.Python

    10.Spark (Core+sparksql+Spark streaming )

    高阶技能6条:

    1.机器学习算法以及mahout库加MLlib

    2.R语言

    3.Lambda 架构

    4.Kappa架构

    5.Kylin

    6.Aluxio

    三、大数据的学习技术点

    Hadoop核心

    (1) 分布式存储基石:HDFS

    HDFS简介 入门演示 构成及工作原理解析:数据块,NameNode, DataNode、数据写入与读取过程、数据复制、HA方案、文件类型、 HDFS常用设置 Java API代码演示

    (2) 分布式计算基础:MapReduce

    MapReduce简介、编程模型、Java API 介绍、编程案例介绍、MapReduce调优

    (3) Hadoop集群资源管家:YARN

    YARN基本架构 资源调度过程 调度算法 YARN上的计算框架

    离线计算

    (1) 离线日志收集利器:Flume

    Flume简介 核心组件介绍 Flume实例:日志收集、适宜场景、常见问题

    (2) 离线批处理必备工具:Hive

    Hive在大数据平台里的定位、总体架构、使用场景之Access Log分析 Hive DDL&DML介绍 视图 函数(内置,窗口,自定义函数) 表的分区、分桶和抽样 优化

    (3) 速度更快的Hive:Impala

    Impala在大数据架构中的角色 架构 数据处理过程 一般使用步骤:创建表,分区表,查询等 常用查询演示:统计,连接等、Impala与Hive的比较 常用配置与最佳使用建议(查错,调优等)

    (4) 更快更强更好用的MR:Spark

    Scala&Spark简介 基础 Spark编程(计算模型RDD、算子Transformation和Actions的使用、使用Spark制作倒排索引)Spark SQL和DataFrame 实例:使用Spark SQL统计页面PV和UV

    实时计算

    (1) 流数据集成神器:Kafka

    Kafka简介 构成及工作原理解析 4组核心API 生态圈 代码演示:生产并消费行为日志

    (2) 实时计算引擎:Spark Streaming

    Spark Streaming简介 工作原理解剖 编写Streaming程序的一般过程 如何部署Streaming程序? 如何监控Streaming程序? 性能调优

    (3) 海量数据高速存取数据库:HBase

    HBase简介 架构及基本组件 HBase Table设计 HBase基本操作 访问HBase的几种方式

    大数据ETL

    (1) ETL神器:Sqoop,Kettle

    数据同步ETL介绍 Kettle常用组件介绍 、抽取Mysql数据到Hive实战 Sqoop介绍、抽取Hive数据到Mysql实战

    (2) 任务调度双星:Oozie,Azkaban

    ETL与计算任务的统一管理和调度简介 Crontab调度的方案 自研调度系统的方案 开源系统Oozie和Azkaban 方案总结与经验分享

    大数据应用与数据挖掘

    (1) 大数据全文检索引擎:Elasticsearch

    全文检索基础知识,ES安装及初级介绍,ES深入理解,使用经验介绍

    (2) 数据仓库搭建

    为什么要构建大数据平台大数据平台的的经典架构深入剖析“五横一纵”的架构实践 知名互联网公司大数据平台架构简介

    (3) 数据可视化

    什么是数据可视化,数据可视化常用工具与必备技能介,Tableau和ECharts实操讲解 ECharts介绍,知名互金公司可视化经验介绍

    (4) 算法介绍

    介绍数据挖掘,机器学习,深度学习的区别,R语言和python的介绍,逻辑回归算法的介绍与应用,以及主要的推荐算法介绍

    四、学习资源推荐:

    01.Apache 官网

    02.Stackoverflow04.github

    03.Cloudra官网

    04.Databrick官网

    05.过往的记忆(技术博客)

    06.CSDN,51CTO 

    07.至于书籍当当一搜会有很多,其实内容都差不多。

    感谢你的观看,如果感觉写的不错,你可以关注一下我的微信公众号,我们一直更新最新文章给大家学习的,也可以加我们家庭群,一起学习大数据。

    微信公众号:程序员OfHome

    程序员OfHomeQQ群:610535338

    相关文章

      网友评论

        本文标题:8年京东大数据架构师推荐的大数据新手学习路线(新手必看)

        本文链接:https://www.haomeiwen.com/subject/texerftx.html