在数据分析的时候经常要把#宽数据#--->>#长数据#,以便于分析,因为这样做图表好用。
首先介绍一下长数据格式和宽数据格式
知道的可以不看,直接跳过!
宽数据格式:比如下面这种数据,经常在Excel中见到
9/30/2018 6/30/2018 3/31/2018
项目
Total 1,078,836 1,026,542 868,008
Cost 884,207 775,858 654,927
Profit 194,629 250,684 213,081
长数据格式就是如下:
项目 数额 时间
Total 1,078,836 9/30/2018
Cost 884,207 9/30/2018
Profit 194,629 9/30/2018
Total 1,026,542 6/30/2018
Cost 775,858 6/30/2018
Profit 250,684 6/30/2018
Total 868,008 3/31/2018
Cost 654,927 3/31/2018
Profit 213,081 3/31/2018
这里正式开始
reshaping_melt.pngIn [42]: df3
Out[42]:
first last height weight
0 John Doe 5.5 130
1 Mary Bo 6.0 150
In [43]: df3.melt(id_vars=['first', 'last'])
Out[43]:
first last variable value
0 John Doe height 5.5
1 Mary Bo height 6.0
2 John Doe weight 130.0
3 Mary Bo weight 150.0
这是pandas.DataFrame()的一个小用法而已
事实上还有许多用法就不要关心,知道怎么简单使用就可以了
具体函数如下:
DataFrame.melt(id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None)
自己去探索
网友评论