美文网首页分布式我爱编程
企业级Hadoop、Spark平台应用、开发、整合

企业级Hadoop、Spark平台应用、开发、整合

作者: Albert陈凯 | 来源:发表于2017-07-24 17:49 被阅读92次

    企业级Hadoop、Spark平台应用、开发、整合

    公司从Hadoop向Spark整合,主要的业务需求是做实时性要求更高的一些业务

    系列课程的重点就是:

    • 实用的一些技巧,
    • 调优的一些手段、
    • 企业中实际应用的一个场景

    根据企业的应用场景,我们如何用Hadoop、Spark去解决

    在这里,聆听最专业的实战指引
    和我们一起,学习最热门的大数据技术

    课程大纲

    • 大数据的故事
    • Hadoop的演变
    • 企业级大数据应用
    • 大数据必备技能
    • 平台一览
    • IOE VS HADOOP
      --IBM Oracle EMC 想必大家也都听说过, 前段时间很火的新闻,阿里巴巴去IOE的主角
    • 数据仓库选型
    • 集群部署、数据管理、任务调度、集群监控
    • Hadoop集群的问题和限制
    • Hadoop DBA
    • Hadoop企业级应用的成本考量

    大数据的故事

    很久很久以前...一般故事都是这么开头的
    -实际上是在5年前
    google的一个团队在《自然》杂志上发表了一篇论文,他们通过对数据的处理,进行了一个在美国流感传播的一个预测 google Flu Thrends(GFT) 。
    这个预测不依赖任何的医疗检查、诊断结果
    而且只有一天的延迟
    当时是在2009年初的时候,当时真个结果引起了不小的轰动,
    当时一个美国的预测流感的一个卫生组织,他们的预测方法是通过收集医生的检查和诊断结果,进行流感传播的预测,然后进行流感传播趋势图的这样一个绘制, 他们在时间上的延时是大概一个月左右,才能够做出这样一个趋势的分布的预测
    那谷歌可以不通过医疗数据,就是根据当地用户搜索的内容和浏览的内容,做一个流感预测的这样一个业务

    这是大数据在最初应用上的一个小故事,根据这个故事我们知道,数据量是很重要的一点,我们通过这些庞大的数据,我们是要得到一个有价值的结果,所以数据不是最重要的,最重要的是通过数据获得一个有价值的答案

    伦敦皇家学院的David Hand教授,曾经说了这么一句话,Nobody wants ‘data’. what they want are the answers

    更极端的是《连线》杂志(Wired)的主编 chris Anderson 他也是长尾理论的提出者,他在2008年写了一篇文章《理论的终结》里面就说,所有的数学模型都是错的,数据已经大到可以自己说出结论了。这也是比较极端的一个说法,这些例子都告诉我们,大数据的时代来了。

    那么在大数据时代我们要做些什么呢?
    我们要做的不仅仅是把这些庞大的数据存储起来,而且还要想办法把数据利用起来。能够有一个更便捷的方式访问这些数据,去分析这些数据

    大数据技术 Hadoop

    Hadoop 1.0

    image.png image.png

    相关文章

      网友评论

        本文标题:企业级Hadoop、Spark平台应用、开发、整合

        本文链接:https://www.haomeiwen.com/subject/empdkxtx.html