spark跟pandas数据转换

spark跟pandas数据转换

作者: wangqiaoshi | 来源:发表于2018-01-10 20:45 被阅读0次

spark跟pandas数据转换
18 Pandas的数据转换函数map、apply、applym
用pandas将excel的指定行数据取出并转换为列
Spark 算子- Value Transformation
2019.3.19-2019.3.22
在spark dataFrame 中使用 pandas data
Python每日学习知识点
pandas利用数据类型转换节省内存空间
python
K均值聚类-可视化结果

因为传统的机器学习是基于sklearn,xgboost,有着丰富分算法库,spark mlib不能满足所有的需求. spark来处理数据预处理和特征工程,sklearn,xgboost来训练. 需要spark和sklearn,xgboost进行数据转化.

pandas dataframe转 spark dataframe,

import pandas as pd
from pyspark.sql import SparkSession


#pandas读取cvs,形成dataframe,
userDF = pd.read_csv("src/main/resources/upload.csv")

#启动spark
spark = SparkSession \
        .builder \
        .appName("Python Spark SQL Hive integration example") \
        .enableHiveSupport() \
        .getOrCreate()

#spark读取pandas dataframe,形成spark dataframe
sparkDF = spark.createDataFrame(userDF)
sparkDF.show()

spark dataframe 转 pandas data,download.py

from pyspark.sql import SparkSession

spark = SparkSession \
        .builder \
        .appName("Python Spark SQL Hive integration example") \
        .enableHiveSupport() \
        .getOrCreate()

spark.sql("CREATE TABLE IF NOT EXISTS user (userid int, name string)")
spark.sql("LOAD DATA LOCAL INPATH 'src/main/resources/user.txt' INTO TABLE user")

userSparkDF = spark.sql("select * from user")


userPandasDF = userSparkDF.toPandas()

print userPandasDF

spark.stop()

相关文章

spark跟pandas数据转换
因为传统的机器学习是基于sklearn,xgboost,有着丰富分算法库,spark mlib不能满足所有的需求....
18 Pandas的数据转换函数map、apply、applym
18 Pandas的数据转换函数map、apply、applymap 数据转换函数对比：map、apply、app...
用pandas将excel的指定行数据取出并转换为列
用pandas将excel的指定行数据取出并转换为列转换前：转换后：
Spark 算子- Value Transformation
Spark算子的作用 Spark的输入、运行转换、输出过程，在运行转换中通过算子对RDD进行转换输入：外部数据空...
2019.3.19-2019.3.22
1.Pandas基本操作 Pandas库内将数据转换为一种DataFrame类型进行处理 1).读取数据 2).提...
在spark dataFrame 中使用 pandas data
背景 pandas dataFrame 无法支持大量数据的计算，可以尝试 spark df 来解决这个问题。一....
Python每日学习知识点
2019.12.9 1、pandas时间格式转换 pd.to_datetime(“数据框.日期”,format =...
pandas利用数据类型转换节省内存空间
pandas利用数据类型的转换(astype)节省内存空间数据类型转换函数astype 可以看到，经过数据压缩之...
python
pandas，numpy，sklearn，spark，mllib
K均值聚类-可视化结果
数据清洗将csv,excel等行式数据转换成二维excel数据import pandas as pd data =...

网友评论

我爱编程

本文标题：spark跟pandas数据转换

本文链接：https://www.haomeiwen.com/subject/sxkanxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

我爱编程

关于我们|服务条款|联系我们|spark跟pandas数据转换|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！