1缺失值处理
# 分行列删除全是缺失
train = train.dropna(how="all",axis=1)
train = train.dropna(how="all",axis=0)
# 通过dataframe的columns筛选非空数据
df[df['Column'].notna()]
2数据描述统计
涉及数据的相关性、缺失性、取值分布统计、头尾数据展示、热力图可视化。
prf = pandas_profiling.ProfileReport(df)
prf.to_file(file_path+'example.html')
3 数据集打乱
import numpy
import random
random.shuffle(data) # 随机打乱
"""
数据打乱存在如下问题:
1 data属于numpy的array数组类型
2 会将数组的所有元素打乱,dataframe数据源会有异常
"""
网友评论