美文网首页
《Spark快速大数据分析》读书笔记——PageRank程序及其

《Spark快速大数据分析》读书笔记——PageRank程序及其

作者: 抬头挺胸才算活着 | 来源:发表于2021-12-19 09:37 被阅读0次

links是一个网站->关联的其他网站的map
ranks是一个保存每个网站的权重
for循环对整个过程迭代10次
先join得到id->(links, rank),也就是某网站的id到外链们和·权重。对于每一个外联,计算得到的权重,最后flatMap打散成外链->得到的权重。
reduceByKey合并相同的外联得到的权重。


优化的点:
1、分区并持久化:将links这个数据量比较大的分区后持久化,减少了shuffle
2、使用mapValue而不是map:map可能会改变key,从而改变分区,mapValue不会改变分区,保持分区后续不用分区。
3、在类似reduceByKey分区操作后使用mapValues仍然可以保留分区,下次迭代的时候跟links进行join操作的时候减少shuffle。

相关文章

  • 《Spark快速大数据分析》读书笔记——PageRank程序及其

    links是一个网站->关联的其他网站的mapranks是一个保存每个网站的权重for循环对整个过程迭代10次先j...

  • spark笔记:常见的RDD操作(python)

    参考图灵程序设计丛书,Spark快速大数据分析一书 1.从外部读取数据创建RDD lines = sc.textF...

  • 1.Spark基础学习一(Spark概念)

    什么是Spark Spark是一种基于内存的快速的,通用的,可扩展的大数据分析引擎 Spark内存模块 Spark...

  • 大数据

    http://shop.oreilly.com/Spark快速大数据分析 Holden Karau 等 有Pyth...

  • 教材:Spark快速大数据分析 系统:macOS Spark版本:2.4.5 遇到的问题: 1. 在运行P12的l...

  • Spark

    Spark Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 特点 Spark 是一种由 Sc...

  • 1、Spark简介

    spark是什么? spark是基于内存计算的通用大数据并行计算框架,是一个快速、通用可扩展的大数据分析引擎。它给...

  • Spark概述

    什么是Spark 定义Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎 历史2009年诞生于加州大学伯...

  • Spark概述

    一、什么是Spark(官网) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分...

  • Spark大数据平台

    1. Spark简述 Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMP...

网友评论

      本文标题:《Spark快速大数据分析》读书笔记——PageRank程序及其

      本文链接:https://www.haomeiwen.com/subject/fwlbfrtx.html