前言
Python的pandas库常用的一些方法,和各种整合说各种pandas的函数、操作的教程不同之处在于,这个备忘更立足于自己遇到的问题,自己高频使用但是还没能用好掌握的方法和解决方案;主要是自己不会或不熟的,所以也不是pandas库的数据科学高频操作方法集合;这个备忘也是希望自己能够更快掌握这些解决方案。
数据操作
更改列的顺序_只输出特定列
s_idx=['a','b','c']
df=df.loc[:,s_idx] #更改列的顺序,只保存特定的列
ncols={'_id':'用户id','nick':'昵称'}
df.rename(columns=ncols, inplace=True) #更改列的名称
#不需要配置所有列的键值,例如df.columns有_id,nick,city三个列名,上面语句不影响city这个列名,city也仍然会保留
数据透视表
透视表:value_count 没有去重;去重,value_sum;
网友评论