pySpark创建空DataFrame

pySpark创建空DataFrame

作者: 井底蛙蛙呱呱呱 | 来源:发表于2019-09-25 22:55 被阅读0次

pySpark创建空DataFrame
中文文档 pyspark.sql.HiveContext
PySpark的使用
PySpark
中文文档 pyspark.sql.SQLContext
书籍:掌握Python的网络和安全 PySpark SQL R
pyspark.sql.DataFrame
PySpark之DataFrame的创建与转换
Spark Python API Docs(part four)
pyspark Dataframe语法

有时候需要在迭代的过程中将多个dataframe进行合并（union），这时候需要一个空的初始dataframe。创建空dataframe可以通过spark.createDataFrame()方法来创建：

# 先定义dataframe各列的数据类型
from pyspark.sql.types import *
schema = StructType([
        StructField("a", IntegerType(), True),
        StructField("b", IntegerType(), True),
        StructField("c", IntegerType(), True)])

# 通过定义好的dataframe的schema来创建空dataframe
df1 = spark.createDataFrame(spark.sparkContext.emptyRDD(), schema)

df2 = sc.parallelize([(4,5,6)]).toDF(['a','b','c'])

df1.union(df2).show()
+---+---+---+
|  a|  b|  c|
+---+---+---+
|  4|  5|  6|
+---+---+---+

通过上面的方法可以创建指定列名和数据类型的dataframe。但是有时候我们需要创建的dataframe的数据结构是跟某个dataframe结构是相同的，而这个结构有非常复杂，难以直接创建，这时候就可以直接使用已有的dataframe的schema来创建新的dataframe了：

df3 = spark.createDataFrame(spark.sparkContext.emptyRDD(), df2.schema)
df3.union(df2).show()
+---+---+---+
|  a|  b|  c|
+---+---+---+
|  4|  5|  6|
+---+---+---+

参考：
https://stackoverflow.com/questions/54503014/how-to-get-the-schema-definition-from-a-dataframe-in-pyspark

相关文章

pySpark创建空DataFrame
有时候需要在迭代的过程中将多个dataframe进行合并（union），这时候需要一个空的初始dataframe。...
中文文档 pyspark.sql.HiveContext
同pyspark.sql.DataFrame
PySpark的使用
Spark中使用Python实现WordCount业务 PySpark中的DataFrame DataFrame类...
PySpark
在PySpark中使用现有列创建新列假如现在有如下DataFrame：创建新列，使其变成这样这里使用了pys...
中文文档 pyspark.sql.SQLContext
pyspark.sql.SQLContext：DataFrame和SQL功能的主要入口点. 1：pyspark.s...
书籍:掌握Python的网络和安全 PySpark SQL R
简介 PySpark SQL Recipes：使用HiveQL，Dataframe和Graphframes Pdf...
pyspark.sql.DataFrame
类 pyspark.sql.DataFrame 一旦创建，它可以使用各种域专用语言（DSL）中定义的函数来处理：D...
PySpark之DataFrame的创建与转换
简介 DataFrame [https://databricks.com/blog/2015/02/17/intr...
Spark Python API Docs(part four)
pyspark.ml package ML Pipeline APIs 基于DataFrame的机器学习API，使...
pyspark Dataframe语法
背景 spark提供一种叫Resilient Distributed Datasets（RDD）的弹性分布式数据集...

网友评论

本文标题：pySpark创建空DataFrame

本文链接：https://www.haomeiwen.com/subject/mhhbuctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|pySpark创建空DataFrame|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！