美文网首页
spark-快速大数据分析(1-3章)

spark-快速大数据分析(1-3章)

作者: 奔腾的小溪 | 来源:发表于2020-04-07 13:07 被阅读0次

说在前面

这段时间系统学习了spark,跟随靠谱的视频资源学习比从网站蜻蜓点水的搜索及看书都效率高一些。

系统性:书>视频学习>随机搜索   学习难易程度:书>视频学习>随机搜索

视频学习可以在系统性及难易程度取到平衡。找到适合自己技术水平的分享是很重要滴。对于java程序员、hadoop大数据开发来说推荐谷粒学院,我是在bilibili偶然搜到了这个宝藏资源,好多免费的资源。

一年前我接触了mapduce项目,并且逐渐接触到了hdfs、hive、yarn调度调优相关的知识。由于项目忙或者自我驱动力不够一直没有系统学习hadoop生态。最近系统学习了spark视频,竟然还查漏补缺了hadoop相关知识,有点6。学习了以后发现spark生态真的比mapreduce灵活很多,开发者开发spark也是为了弥补mapreduce的不足(spark是内存计算的、有很多transformation/action灵活的方法、是一个大一统的软件栈 从一开始就是为了交互式查询与迭代算法设计的)。为了增加系统性,今天读《spark-快速大数据分析》这本书。本书难易程度:🌟🌟🌟,比较适合初学者或者有一些spark开发经验的同事学习。今天我分享一下这本书前三章的一些Tips。会找一些记忆点来说,而不是啥都梳理哈。

Tips

spark软件栈中所有的程序库与高级组件都可以从下层的改进中收益。

spark本身是scala写的,运行在java虚拟机上。

我是java开发出身,scala语言非常有必要学习(ps:技术学无止境,没有头,您就学吧😂)

spark带有交互式的shell,可以作即时分析。

目前交互式shell支持python与scala,不支持java。学习python的朋友了解的多一些。

spark是惰性执行的。只有第一次在一个行动(action)操作中用到了新的rdd,才会真正计算。

 lines =sc.textFile("README.md")

pythonlines=lines.filter(lambda line:"python" in line)

pythonlines.first()

事实上,在first()中,spark只需要扫描文件中直到找到第一个匹配的python的行为,而不需要读取整个文件。(666)

如果想要在多个操作中重复用一个rdd。可以使用rdd.persist()让spark把这个rdd缓存下来。

spark会使用谱系图来记录不同rdd之间的依赖关系。

常见的transformation操作及action操作

1.map()  map返回类型不需要和输入类型一样

2.flatmap()  对每个输入元素生成多个输出元素

3.union() 连接rdd

4.distinct()、 intersection()、subtract() 等都需要对数据shuffle 开销很大。


相关文章

  • spark-快速大数据分析(1-3章)

    说在前面 这段时间系统学习了spark,跟随靠谱的视频资源学习比从网站蜻蜓点水的搜索及看书都效率高一些。 系统性:...

  • 全网100篇超全超酷数据分析入门资料

    《数据分析需要学习哪些技术,如何快速学习数据分析》 ?7616 ?223 @大数据在说话 《数据分析培训...

  • 数据分析与大数据

    一、基于大数据的数据分析方法 基于大数据的数据分析方法的理论基础是数据挖掘和分布式计算原理。大数据具有海量、快速、...

  • 大数据技术热门十个应用

    随着互联网+和人工智能的发展,大数据市场发展越来越火热,大数据分析人才越来越紧缺,如今大数据分析市场已经快速的渗透...

  • 读书笔记-如何做好数据分析

    《大数据分析的道与术》的读书笔记,第一章“大数据分析之道” “数据分析”虽然只提到了“数据”和“分析”,但是做好数...

  • 数据分析

    为什么要数据分析 数据分析的概念和价值人类正在进入大数据时代,在大数据时代中,对庞大,多种类的真实高价值数据有快速...

  • 大数据

    http://shop.oreilly.com/Spark快速大数据分析 Holden Karau 等 有Pyth...

  • 2017年3月总结

    1-3月数据分析:

  • 2018-11-19

    大数据时代,分析师如何快速抓取分析数据? 大数据时代,大数据分析师进行数据挖掘和分析的时候,面临各种各样的问题。O...

  • 如何做用户行为分析?

    在大数据时代,大数据分析非常重要,我们要理解大数据的核心价值,并掌握大数据分析方法。数据分析中,分析的最多的是用户...

网友评论

      本文标题:spark-快速大数据分析(1-3章)

      本文链接:https://www.haomeiwen.com/subject/ckugphtx.html