我们在系统学习大数据的之前,要先了解大数据开发是在什么系统平台下进行的。所以我们在学之前要先学习Linux的知识,这部分显得格外的重要。
1、Linux学习
学习如何使用VMware安装Linux镜像------认识linux的桌面环境、shell环境------在shell环境下进行文件系统的操作,掌握more、touch、cp、mv、rm等20多个常用命令------学习linux的网络管理,掌握ip、hostname等设置------学习vmware与linux的通信设置,掌握如何实现host-only、bridge、nat等网络连接方式------学习linux的进程管理,掌握如何查看、删除进程------学习linux的软件管理,掌握java、mysql等安装------学习环境变量配置,掌握如何设置环境变量------学习linux的ssh管理,掌握如何实现免密码登录------学习linux的防火墙管理,掌握如何关闭防火墙及开放指定端口------学习linux的调度管理,掌握crontab的使用
这些差不多就是Linux的学习要点了,只有掌握了这部分的内容,在学后面的知识点时才能更加的得心应手。
2、hadoop学习
搭建伪分布实验环境------HDFS体系结构及shell、java操作方式------MapReduce体系结构及各种算法
这里的hadoop知识点当然还有很多很多,像图片下方的知识都是重点学习的内容,想要系统学习的同学可以看一下学习路线系统学习
3、zookeeper学习
Zookeeper是什么------搭建zookeeper集群环境------如何使用命令行操作zookeeper------如何使用java操作zookeeper
4、HBase学习
hbase的概述------hbase的数据模型------hbase的表设计------hbase的伪分布式和集群安装------hbase的shell操作------hbase的JavaAPI操作------hbase的数据迁移------hbase的数据备份及恢复------Hbase结合Hive使用------hbase的集群管理------hbase的性能调优
5、CM+CDH集群管理学习
CM + CDH集群的安装------基于CM主机及各种服务组件的管理------CDH集群的配置和参数调优------CDH集群HA配置及集群升级------CM的监控管理------集群管理的注意事项
6、Hive学习
Hive支持的数据类型------Hive数据的管理------Hive的查询------Hive的函数------Hive的文件格式------项目实战
7、Sqoop学习
Flume的体系结构------flume的agent配置信息------flume如何动态监控文件夹中文件变化------flume如何把数据导入到hdfs中------讲解如何通过flume动态监控日志文件变化,然后导入到hdfs中
以上的知识点可以说是系统大数据学习中最重要的环节,我们可以把它们统筹归结到一个章节内,当然除了以上的知识点还有很多的知识要学习。
比如:
机器学习的知识:R语言------mahout
storm流式计算:kafka------srorm------redis
spark内存计算:scala编程------spark core------spark sql------spark streaming------spark mllib------spark graphx------python机器学习------spark python编程
云计算平台:docker------kvm------openstack云计算
等等......
以上学习线路只是系统的学习方向,详细知识点如果有想了解的朋友可以留言互加好友分享
网友评论