很多人都知道大数据很受欢迎。他们的工作很好,薪水也很高。他们希望朝着大数据的方向发展。但是我们学到了什么技术和路线呢?
大数据的三个发展方向,平台建设/优化/运行/维护/监控,大数据开发/设计/架构,数据分析/挖掘。
首先,说大数据的4V特征:
数据量大,TB-PB
有多种类型的数据,如结构化的、非结构化的文本、日志、视频、图片、地理位置等。
商业价值很高,但是通过数据分析和机器学习需要大量的数据挖掘。
处理时间非常高,对海量数据处理的需求不再局限于离线计算。
现在,为了应对这些大数据的特点,开源大数据框架正变得越来越强大。
文件存储:Hadoop HDFS,Takyon,KFS
离线计算:Hadoop MapReduce,火花
流媒体,实时计算:风暴,火花流,S4,苍鹭
K-V,NoSQL数据库:HBase,ReiIS,MangoDB
资源管理:纱线,Mesos
日志收集:汇,划线,LogSTASH,Kibana
消息系统:卡夫卡,StruMQ,Zrimq,RabByMQ
查询分析:蜂箱,KORAS,猪,出版社,菲尼克斯,SARKSQL,钻机,弗兰克,麒麟,Druid
分布式协调服务:动物园管理员
集群管理和监控:AMBARI,Ganglia,NAGIOS,Cloudera管理器
数据挖掘与机器学习:火花MLLIB
数据同步:Sqoop
任务调度:OZIE
…
![](https://img.haomeiwen.com/i11170327/f46313acb4914e75.png)
它们有30多种。不要说他们精通。它们都被使用了。
在这里还是要推荐下我自己建的大数据学习交流群:199427210,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。
第二个方向(开发/设计/架构)进行了详细讨论,这是很容易找到在这个方向。
第一章:Hadoop的第一个熟人
1.1学习百度和谷歌
不管你有什么问题,试着自己去搜索和解决。
谷歌的首选。如果你不能翻转,使用百度。
1.2参考信息优先于公文
特别是对于入境,官方文件总是首选文件。
我相信这个地区的大多数人都是文化人,所以跟上英语是不可能的。请参阅第一步。
1.3让Hadoop前进
Hadoop可以被看作是大数据存储和计算的创始人。大多数开源大数据框架现在依赖于Hadoop或者与它们兼容。
关于Hadoop,你至少应该找出以下几点:
Hadoop 1,Hadoop 2
MapReduce
那扇门,Tan Ode
JobTracker,TaskTracker
纱线,资源管理器
![](https://img.haomeiwen.com/i11170327/c08f49452b3d43bd.png)
要构建自己的Hadoop,请使用第一步和第二步来运行它。
建议先安装安装程序包命令行,而不是使用管理工具。
1.4尝试使用Hadoop
HDFS目录操作命令;
上传和下载文件命令;
提交运行MapReduce示例程序;
打开Hadoop Web界面以查看作业的运行状态并检查作业运行日志。
知道Hadoop的系统日志在哪里。
1.5你应该知道他们的原则。
MapReduce:如何划分和征服
HDFS:数据在哪里,什么是副本;
什么是纱线和它能做什么;
那门在地球干什么?
资源管理者到底在做什么;
1.6编写MapReduce程序
请根据单词计数的例子写一个单词计数程序。
![](https://img.haomeiwen.com/i11170327/7ecc772524e4450c.png)
该包提交到Hadoop运行。
你不能java?Shell,Python可以,有一个叫做Hadoop流的东西。
如果你已经做了这些步骤,恭喜你,你的一只脚已经进来了。
第二章:更有效的词语
2.1学习点SQL
你知道数据库吗?你能写SQL吗?
如果不是,请学习一些SQL。
2.2 SQL版本号
在1.6,你写了多少行代码(或复制)?
例如:
选择单词,逐字计数(1);
这就是SQL的魅力,编程需要几十行,甚至一百行代码,这句话就完成了;使用SQL来分析Hadoop上的数据,方便、高效、容易处理,而且趋势更大。无论是离线计算还是实时计算,越来越多的大数据处理框架正在积极提供SQL接口。
网友评论