Spark

作者: 5fc9b6410f4f | 来源:发表于2017-12-18 15:42 被阅读88次

    Spark 系列:『 Spark 』1. spark 简介

    things you need know before you touch Spark and before you decide to use spark in your next project.


    Spark 系列:『 Spark 』4. spark 之 RDD


    要想学好 spark,怎么能不先搞清楚 RDD 的来龙去脉呢~~~


    Spark 函数详解系列之 RDD 基本转换


    RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个 RDD 代表一个分区里的数据集
    RDD 有两种操作算子:
    Transformation(转换):Transformation 属于延迟计算,当一个 RDD 转换成一 个 RDD 时并没有立即进行转换,仅仅是记住了数据集的逻辑操作
    Ation(执行):触发 Spark 作业的运行,真正触发转换算子的计算


    Spark 调优经验总结


    本文以 Spark 实践经验和 Spark 原理为依据,总结了 Spark 性能调优的一些方法。这些总结基于 Spark-1.0.0 版本。对于最近推出的 Spark-1.1.0 版本,本文介绍了几个版本增强。


    Spark 系列:『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task


    know more, do better


    大数据资源整理


    scala、spark 使用过程中,各种测试用例以及相关资料整理


    借助 Redis ,让 Spark 提速 45 倍!


    一些内存数据结构比其他数据结构来得更高效;如果充分利用 Redis,Spark 运行起来速度更快。


    Spark 调优经验总结


    Spark 调优经验总结
    http://click.aliyun.com/m/7936/


    Spark 系列:『 Spark 』3. spark 编程模式


    let's start coding in spark.


    spark streaming 将乱序消息有序存储 离线保证 exact once 语义


    spark streaming 将乱序消息有序存储 离线保证 exact once 语义。


    [如何选择三种 Spark API

    ](https://juejin.im/entry/585910a8128fe1006b8933dc)

    Spark 在最近的版本中引进了各种 API,对比各种 API 选择更适合自己项目的


    Spark 系列:『 Spark 』2. spark 基本概念解析


    Concepts you need keep in mind about spark.


    Spark 常用函数讲解之键值 RDD 转换


    RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个 RDD 代表一个分区里的数据集
    RDD 有两种操作算子:
    Transformation(转换):Transformation 属于延迟计算,当一个 RDD 转换成另一个 RDD 时并没有立即进行转换,仅仅是记住 了数据集的逻辑操作
    Ation(执行):触发 Spark 作业的运行,真正触发转换算子的计算


    Spark 计算过程分析


    Spark 是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。Spark 延续了 Hadoop 的 MapReduce 计算模型,相比之下 Spark 的计算过程保持在内存中,减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。同时 Spark 也提供了更丰富的计算 API。


    深度剖析 Spark 分布式执行原理


    Spark 是大数据领域中相当火热的计算框架,在大数据分析领域有一统江湖的趋势,网上对于 Spark 源码分析的文章有很多,但是介绍 Spark 如何处理代码分布式执行问题的资料少之又少,这也是我撰写文本的目的。


    Spark 核心技术与实践


    http://click.aliyun.com/m/7889/


    基于 Python 的 Spark Streaming + Kafka 编程实践


    Spark Streaming 的原理说明的文章很多,这里不做介绍。本文主要介绍使用 Kafka 作为数据源的编程模型, 编码实践, 以及一些优化说明。


    Spark 在美团的实践


    美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。


    『 Spark 』7. 使用 Spark DataFrame 进行大数据分析


    spark 系列第 7 篇,教你如何使用 apache spark dataframe 进行大数据分析


    Spark Streaming-- 实战篇


    prak Streaming 属于 Saprk API 的扩展,支持实时数据流(live data streams)的可扩展,高吞吐(hight-throughput) 容错(fault-tolerant)的流处理。可以接受来自 KafKa,Flume,ZeroMQ Kinesis Twitter 或 TCP 套接字的数据源,处理的结果数据可以存储到文件系统 数据库 现场 dashboards 等。

    相关文章

      网友评论

      • dodo_lihao:个人觉得,Spark比hadoop好用,写起来方便,运行也快

      本文标题:Spark

      本文链接:https://www.haomeiwen.com/subject/upjmwxtx.html