方法与操作
一维数组
TODO
二维数组
1.1操作excel
自建DataFram数据结构
data = {"key":"value"}
df = pd.DataFram(data)
df.index # 行索引
df.columns # 列索引
读取excel
df = pd.read_excel({site},sheet_name="Sheet名称"/索引0/1/2... )
# indeex_col是指行索引从哪里开始,header是指列索引从哪里开始,usecols指读取第几列
df.info()
# 查看数据表中的数据类型
df.describe
# 获取数据分布情况,比如最大值,最小值,方差等
数据清洗
缺失值判断
df.isnull()
# 可以判断缺失值分布情况,如果是缺失值则返回True
缺失值删除
df.dropna(how="all")
# dropna()默认删除含有缺失值的行,只要某一行存在缺失值,就删除这行,how=all,只删除全为空值得那一行,不全是空值得一行则会被保留
缺失值填充
df.fillna(value)
# fillna可以找到缺失值,然后用value填充
df.fillna(“key1”:"value1","key2","value2")
# 可以指定列名进行特定值填充
重复值处理
df.drop_duplicates()
# 该方法默认对所有重复值判断,默认保留第一个值
df.drop_duplicates(subset= [])
# 传入要判断的列索引名,可以对指定列进行重复值判断,并删除
df.drop_duplicates(keep= "first"/"last"/"False")
# first保留第一个值,last保留最后一个,False把重复值全部删除
数据类型的转换
首先需要查看数据类型
df["列名"].dtype
# 查看这一列的数据类型
df["列名"].astype("int64")
# 将这一列的数据类型转换为int64
索引的添加与 重命名
读取完excel后,会存在索引不与我们预期想象的那样,所以,需要对索引进行修改
df.columns = list[]
df.index = list[]
# 上述两个发方法可以在没有索引的情况下加入索引(行/列)
df.rename(columnus=dict,index=dict)
重命名索引值,key=原名,value=新名
索引的重置
reset_index(level=None,drop=False,inplacae=False)
level参数用来指定要将层次化索引的第几级别转化为columns,第一个索引为0级,第二个索引为1级,默认为全部索引,即默认把索引全部转化为columns。
drop参数用来指定是否将原索引删掉,即不作为一个新的
columns,默认为False,即不删除原索引。
inplace参数用来指定是否修改原数据表。
网友评论