企业级Hadoop、Spark平台应用、开发、整合

公司从Hadoop向Spark整合，主要的业务需求是做实时性要求更高的一些业务

系列课程的重点就是：

实用的一些技巧，
调优的一些手段、
企业中实际应用的一个场景

根据企业的应用场景，我们如何用Hadoop、Spark去解决

在这里，聆听最专业的实战指引
和我们一起，学习最热门的大数据技术

课程大纲

大数据的故事
Hadoop的演变
企业级大数据应用
大数据必备技能
平台一览
IOE VS HADOOP
--IBM Oracle EMC 想必大家也都听说过，前段时间很火的新闻，阿里巴巴去IOE的主角
数据仓库选型
集群部署、数据管理、任务调度、集群监控
Hadoop集群的问题和限制
Hadoop DBA
Hadoop企业级应用的成本考量

大数据的故事

很久很久以前...一般故事都是这么开头的
-实际上是在5年前
google的一个团队在《自然》杂志上发表了一篇论文，他们通过对数据的处理，进行了一个在美国流感传播的一个预测 google Flu Thrends(GFT) 。
这个预测不依赖任何的医疗检查、诊断结果
而且只有一天的延迟
当时是在2009年初的时候，当时真个结果引起了不小的轰动，
当时一个美国的预测流感的一个卫生组织，他们的预测方法是通过收集医生的检查和诊断结果，进行流感传播的预测，然后进行流感传播趋势图的这样一个绘制，他们在时间上的延时是大概一个月左右，才能够做出这样一个趋势的分布的预测
那谷歌可以不通过医疗数据，就是根据当地用户搜索的内容和浏览的内容，做一个流感预测的这样一个业务

这是大数据在最初应用上的一个小故事，根据这个故事我们知道，数据量是很重要的一点，我们通过这些庞大的数据，我们是要得到一个有价值的结果，所以数据不是最重要的，最重要的是通过数据获得一个有价值的答案

伦敦皇家学院的David Hand教授，曾经说了这么一句话，Nobody wants ‘data’. what they want are the answers

更极端的是《连线》杂志（Wired）的主编 chris Anderson 他也是长尾理论的提出者，他在2008年写了一篇文章《理论的终结》里面就说，所有的数学模型都是错的，数据已经大到可以自己说出结论了。这也是比较极端的一个说法，这些例子都告诉我们，大数据的时代来了。

那么在大数据时代我们要做些什么呢？
我们要做的不仅仅是把这些庞大的数据存储起来，而且还要想办法把数据利用起来。能够有一个更便捷的方式访问这些数据，去分析这些数据