1.在 pyspark 上运行sql,查看数据异常
- 运行 sql 查看查询出来的数据类型
mysql = '''
select * from app.dj_live_entire_stat_di where ds='2019-02-01' and ptype='m' and stat_type='all'
'''
df = spark.sql(mysql)
df.show()
- 直接读取hive中存储的文件,查看对应的数据类型
df_m = spark.read.parquet('/user/hive/warehouse/app.db/dj_live_entire_stat_di/stat_type=all/ptype=m/ds=2019-02-01/000000_0')
df_m.dtypes
网友评论