《Spark快速大数据分析》读书笔记——PageRank程序及其

作者: 抬头挺胸才算活着 | 来源:发表于2021-12-19 09:37 被阅读0次

《Spark快速大数据分析》读书笔记——PageRank程序及其
spark笔记：常见的RDD操作(python)
1.Spark基础学习一（Spark概念）
大数据
一
Spark
1、Spark简介
Spark概述
Spark概述
Spark大数据平台

links是一个网站->关联的其他网站的map
ranks是一个保存每个网站的权重
for循环对整个过程迭代10次
先join得到id->(links, rank)，也就是某网站的id到外链们和·权重。对于每一个外联，计算得到的权重，最后flatMap打散成外链->得到的权重。
reduceByKey合并相同的外联得到的权重。

优化的点：
1、分区并持久化：将links这个数据量比较大的分区后持久化，减少了shuffle
2、使用mapValue而不是map：map可能会改变key，从而改变分区，mapValue不会改变分区，保持分区后续不用分区。
3、在类似reduceByKey分区操作后使用mapValues仍然可以保留分区，下次迭代的时候跟links进行join操作的时候减少shuffle。

《Spark快速大数据分析》读书笔记——PageRank程序及其
links是一个网站->关联的其他网站的mapranks是一个保存每个网站的权重for循环对整个过程迭代10次先j...
spark笔记：常见的RDD操作(python)
参考图灵程序设计丛书，Spark快速大数据分析一书 1.从外部读取数据创建RDD lines = sc.textF...
1.Spark基础学习一（Spark概念）
什么是Spark Spark是一种基于内存的快速的，通用的，可扩展的大数据分析引擎 Spark内存模块 Spark...
大数据
http://shop.oreilly.com/Spark快速大数据分析 Holden Karau 等有Pyth...
一
教材：Spark快速大数据分析系统：macOS Spark版本：2.4.5 遇到的问题： 1. 在运行P12的l...
Spark
Spark Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。特点 Spark 是一种由 Sc...
1、Spark简介
spark是什么？ spark是基于内存计算的通用大数据并行计算框架，是一个快速、通用可扩展的大数据分析引擎。它给...
Spark概述
什么是Spark 定义Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎历史2009年诞生于加州大学伯...
Spark概述
一、什么是Spark（官网） Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分...
Spark大数据平台
1. Spark简述 Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMP...