美文网首页
Python S6-3 Pandas 数据处理

Python S6-3 Pandas 数据处理

作者: 薛东弗斯 | 来源:发表于2022-08-08 07:09 被阅读0次

header=None 不用Excel 表格的第一行作为header。重新命名header,此处采用姓名,年龄,地址作为表头。

data.to_excel("m_data.xlsx") 将data 写入excel文件。

df.head()   查看前5行

df.sample(n=10) 随机选出10个数。随机抽样

每一列都做了强制类型转换。NaN是float类型。

如果pandas直接处理,控制会变成NaN float类型。如果经过中间的numpy处理,则不会处理成NaN,保留None。 numpy的None是float类型。

dataframe聚合处理,或忽略空值

只允许以列填充。解决办法:转置以后进行填充

limit 限制填充次数

临近值填充:临近值是否有足够的代表性? 临近值用的少。常用的是以某一列的数据的均值进行填充。

df.loc 自动过滤为False的行。

默认inplace是False。返回新值。 inplace 是否要操作内存。 以防万一,最好设置成flase,用新的变量保存新值。防止原始数据被破坏。

下面为伪代码,处理异常值。

Q1:25% 分位数

Q3:75%分位数

IQR = Q3-Q1

Q1 - 1.5IQR  :下边界,Bottom

Q3 + 1.5IQR:上边界,Upper

某些数据在Upper与Bottom之外,就是离群点。

箱线图

相关文章

网友评论

      本文标题:Python S6-3 Pandas 数据处理

      本文链接:https://www.haomeiwen.com/subject/omdiwrtx.html