写给小白的pySpark入门

作者: Macroholica | 来源:发表于2018-08-09 11:13 被阅读12次

1. 创建键值对RDD ( Pair RDD)

RDD中可以包含任何类型的对象。其中,键值对是一种比较常见的RDD元素类型,在分组和聚合中经常会用到。

首先在本地创建一个word.txt,然后上传到hadoop目录中。

方法a:从文件中加载,来创建键值对RDD

pyspark --queue 队列名   [进入spark]

lines = sc.textFile("hadoop地址/word.txt") [加载文件到rdd中]

相关文章

  • 写给小白的pySpark入门

    1. 创建键值对RDD ( Pair RDD) RDD中可以包含任何类型的对象。其中,键值对是一种比较常见的RDD...

  • Mac使用

    写给小白看的 Mac 入门指南

  • pyspark整理

    pyspark入门资料 公众号回复:pyspark (会有pyspark资料大礼包:Learning PySpar...

  • Web Front-end RoadMap for Intern

    Mac for beginner Mac 入门和常用命令の快捷键 写给小白看的 Mac 入门指南 Mac论坛 Ma...

  • 手把手带你入门PySpark!

    PySpark数据科学入门 PySpark是一种很好的语言,可以大规模地进行探索性数据分析、构建机器学习管道以及为...

  • 写给小白的git入门

    序言: 一篇文章告诉你为何GitHub估值能达20亿美元 慕课网: 版本管理工具介绍—Git篇 什么是 ...

  • pySpark DataFrame入门

    DataFrame是一种不可变的分布式数据集,这种数据被组织成指定的列,类似于关系数据库中的表。Spark Dat...

  • PySpark DataFrame 入门

    1 创建数据 2 Distinct 去重 3 聚合Group by 4 Filter/ Where 按条件删选 5...

  • Spark Python API Docs(part one)

    pyspark package subpackages pyspark.sql module pyspark.st...

  • 写给小白的健身入门指南

    某萌妹纸说:唉,又胖了好几斤,不行,我得减肥,以后不吃晚饭了。某程序员说:尼玛,腰酸背痛,没时间运动,感觉身体被掏...

网友评论

    本文标题:写给小白的pySpark入门

    本文链接:https://www.haomeiwen.com/subject/myeqbftx.html