大数据

作者: maocy | 来源:发表于2017-12-03 13:31 被阅读0次

http://shop.oreilly.com/
Spark快速大数据分析 Holden Karau 等 有Python java scala

hadoop生态系统 kevin sitto
hadoop:可以支持存储和大数据分析的独立平台
mapreduce原理:


大数据

MapReduce在需要迭代处理和数据共享的地方,并不是最优的;
Spark则尽可能地利用内存以减少从硬盘上写入或读取数据的数据总量。
不同于Pig和Hive,Spark并不是让MapReduce成为更容易使用的一种工具,它是包括工作执行引擎在内的MapReduce的完全替代品。
spark把以往的mapreduce、流式计算、机器学习算法等模型全部统一起来
Spark替代hadoop的MR计算,用Spark SQL来替代Hive,但存储依然使用Hadoop HDFS

三个核心理念:
1.RDD(Resilient Distributed Dataset) 弹性分布数据集介绍
RDD是Spark框架中的核心概念。可以将RDD视作数据库中的一张表。其中可以保存任何类型的数据。Spark将数据存储在不同分区上的RDD之中。RDD是不可变的。你可以用变换(Transformation)修改RDD,但是这个变换所返回的是一个全新的RDD,而原有的RDD仍然保持不变。
RDD支持两种类型的操作:
2.变换(Transformation): 变换的返回值是一个新的RDD集合,而不是单个值。调用一个变换方法,不会有任何求值计算,它只获取一个RDD作为参数,然后返回一个新的RDD。变换函数包括:map,filter,flatMap,groupByKey,reduceByKey,aggregateByKey,pipe和coalesce。
3.行动(Action): 行动操作计算并返回一个新的值。当在一个RDD对象上调用行动函数时,会在这一时刻计算全部的数据处理查询并返回结果值。行动操作包括:reduce,collect,count,first,take,countByKey以及foreach。

目录 Spark最佳实践 陈欢 林世飞


大数据
大数据

操作 循序渐进学Spark 小象学院 杨磊


大数据
大数据
大数据

详细介绍


大数据
大数据
大数据
大数据
大数据
大数据
大数据
大数据
大数据
大数据
大数据
大数据
大数据
大数据
大数据
  • RDD
    惰性求值

我们不应该把 RDD 看作存放着特定数据的数据集,而最好把每个 RDD 当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。

相关文章

  • 大型网站java中间件,总的来说就是cobar,roketmq,

    关键词记录 请求数据包小,返回数据大 ,差别不大 请求数据包大,返回数据小,差别大 代理 ----》热备 服务自治...

  • 数据大屏

    一、是什么 “可视化+实时+足够大” 将数据通过可视化形式实时显示在足够大的屏幕上。如图1所示: 二、为什么(作用...

  • 数据大屏 - guandata智能数据可视化分析

    数据大屏可视化可更直观更智能的决策场景体验,通过数据大屏实时监测企业数据,洞悉运营增长,助力智能高效决策。 数据大...

  • 海量数据找前k大

    海量数据找前k大 参考1 海量数据找前k大

  • 大数据是什么

    一、大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对...

  • hadoop框架学习笔记一 2020-04-01

    1.1大数据概论 主要解决海量数据存储和海量数据的分析计算问题 1.2大数据的特点 * volume(大量) *v...

  • 报告总统(下)

    一、大数据时代的数据收集、分析 大数据之所以为”大“,有两个层面:其一、数据量大,海量数据;其二、分析规模大:由于...

  • 数据分析-003-数据指标

    数据指标 "对当前业务有参考价值的统计数据。" 三大数据 我们大致可以把数据分成三大类: 用户数据、行为数据、业务...

  • 一篇文章,让你对大数据有全新的掌握

    一、大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进...

  • java

    数据类型分为:8大基础数据类型和3大引用数据类型。 基础数据类型和引用数据类型的区别: 1,基本数据类型变量声明之...

网友评论

      本文标题:大数据

      本文链接:https://www.haomeiwen.com/subject/xcuabxtx.html