企业级Hadoop、Spark平台应用、开发、整合
公司从Hadoop向Spark整合,主要的业务需求是做实时性要求更高的一些业务
系列课程的重点就是:
- 实用的一些技巧,
- 调优的一些手段、
- 企业中实际应用的一个场景
根据企业的应用场景,我们如何用Hadoop、Spark去解决
在这里,聆听最专业的实战指引
和我们一起,学习最热门的大数据技术
课程大纲
- 大数据的故事
- Hadoop的演变
- 企业级大数据应用
- 大数据必备技能
- 平台一览
- IOE VS HADOOP
--IBM Oracle EMC 想必大家也都听说过, 前段时间很火的新闻,阿里巴巴去IOE的主角 - 数据仓库选型
- 集群部署、数据管理、任务调度、集群监控
- Hadoop集群的问题和限制
- Hadoop DBA
- Hadoop企业级应用的成本考量
大数据的故事
很久很久以前...一般故事都是这么开头的
-实际上是在5年前
google的一个团队在《自然》杂志上发表了一篇论文,他们通过对数据的处理,进行了一个在美国流感传播的一个预测 google Flu Thrends(GFT) 。
这个预测不依赖任何的医疗检查、诊断结果
而且只有一天的延迟
当时是在2009年初的时候,当时真个结果引起了不小的轰动,
当时一个美国的预测流感的一个卫生组织,他们的预测方法是通过收集医生的检查和诊断结果,进行流感传播的预测,然后进行流感传播趋势图的这样一个绘制, 他们在时间上的延时是大概一个月左右,才能够做出这样一个趋势的分布的预测
那谷歌可以不通过医疗数据,就是根据当地用户搜索的内容和浏览的内容,做一个流感预测的这样一个业务
这是大数据在最初应用上的一个小故事,根据这个故事我们知道,数据量是很重要的一点,我们通过这些庞大的数据,我们是要得到一个有价值的结果,所以数据不是最重要的,最重要的是通过数据获得一个有价值的答案
伦敦皇家学院的David Hand教授,曾经说了这么一句话,Nobody wants ‘data’. what they want are the answers
更极端的是《连线》杂志(Wired)的主编 chris Anderson 他也是长尾理论的提出者,他在2008年写了一篇文章《理论的终结》里面就说,所有的数学模型都是错的,数据已经大到可以自己说出结论了。这也是比较极端的一个说法,这些例子都告诉我们,大数据的时代来了。
那么在大数据时代我们要做些什么呢?
我们要做的不仅仅是把这些庞大的数据存储起来,而且还要想办法把数据利用起来。能够有一个更便捷的方式访问这些数据,去分析这些数据
大数据技术 Hadoop
Hadoop 1.0
image.png image.png
网友评论