- Python S6-3 Pandas 数据处理
- Python数据处理从零开始----第二章(pandas)⑧pa
- Python数据处理从零开始----第二章(pandas)⑨pa
- Python数据处理从零开始----第二章(pandas)⑦pa
- Python数据处理从零开始----第二章(pandas)⑧pa
- Python数据处理从零开始----第二章(pandas)(十一
- Python数据处理从零开始----第二章(pandas)(十)
- Python数据处理从零开始----第三章(pandas)④数据
- Python数据处理从零开始----第三章(pandas)③数据
- Python数据处理从零开始----第三章(pandas)⑤pa
header=None 不用Excel 表格的第一行作为header。重新命名header,此处采用姓名,年龄,地址作为表头。
data.to_excel("m_data.xlsx") 将data 写入excel文件。
df.head() 查看前5行
df.sample(n=10) 随机选出10个数。随机抽样
每一列都做了强制类型转换。NaN是float类型。
如果pandas直接处理,控制会变成NaN float类型。如果经过中间的numpy处理,则不会处理成NaN,保留None。 numpy的None是float类型。
dataframe聚合处理,或忽略空值
只允许以列填充。解决办法:转置以后进行填充
limit 限制填充次数
临近值填充:临近值是否有足够的代表性? 临近值用的少。常用的是以某一列的数据的均值进行填充。
df.loc 自动过滤为False的行。
默认inplace是False。返回新值。 inplace 是否要操作内存。 以防万一,最好设置成flase,用新的变量保存新值。防止原始数据被破坏。
下面为伪代码,处理异常值。
Q1:25% 分位数
Q3:75%分位数
IQR = Q3-Q1
Q1 - 1.5IQR :下边界,Bottom
Q3 + 1.5IQR:上边界,Upper
某些数据在Upper与Bottom之外,就是离群点。
箱线图
网友评论