本章内容:apply匿名函数,axis=0针对列进行修改,axis=1针对行进行修改
//input1
import pandas as pd
import numpy as np
position = pd.read_csv('DataAnalystAll_utf.csv',encoding='utf')
position.head()
//output1
positionId city companyId firstType secondType education industryField positionAdvantage positionName positionLables salary workYear
0 2537336 上海 8581 技术 数据开发 硕士 移动互联网 知名平台 数据分析师 ['分析师', '数据分析', '数据挖掘', '数据'] 7k-9k 应届毕业生
1 2427485 上海 23177 技术 数据开发 本科 金融 挑战机会,团队好,与大牛合作,工作环境好 数据分析师-CR2017-SH2909 ['分析师', '数据分析', '数据挖掘', '数据'] 10k-15k 应届毕业生
2 2511252 上海 57561 设计 数据分析 本科 移动互联网 时间自由,领导nic 数据分析师 ['分析师', '数据分析', '数据'] 4k-6k 应届毕业生
3 2427530 上海 7502 市场与销售 数据分析 本科 企业服务,数据服务 五险一金 绩效奖金 带薪年假 节日福利 大数据业务分析师【数云校招】 ['商业', '分析师', '大数据', '数据'] 6k-8k 应届毕业生
4 2245819 上海 130876 技术 软件开发 本科 其他 在大牛下指导 BI开发/数据分析师 ['分析师', '数据分析', '数据', 'BI'] 2k-3k 应届毕业生
//input2
def func(x):
if x>20:
return '20+k'
else:
return '0-20k'
position.apply(lambda x:func(x.avg),axis=1).head()
//output2
0 0-20k
1 0-20k
2 0-20k
3 0-20k
4 0-20k
dtype: object
本章内容:apply聚合函数
//input1
import pandas as pd
import numpy as np
position = pd.read_csv('DataAnalyst_utf.csv',encoding='utf')
position.head()
//output1
positionId city education bottom top avg workYear
0 2537336 上海 硕士 7 9 8.0 应届毕业生
1 2427485 上海 本科 10 15 12.5 应届毕业生
2 2511252 上海 本科 4 6 5.0 应届毕业生
3 2427530 上海 本科 6 8 7.0 应届毕业生
4 2245819 上海 本科 2 3 2.5 应届毕业生
//input2
def func(x,n,asc = False):
r= x.sort_values('avg',ascending = asc)
return r[:n]
position.groupby('city').apply(func,n=3,asc = False)
//output2
positionId city education bottom top avg workYear
city
上海 834 2475927 上海 硕士 50 100 75.0 5-10年
826 2568751 上海 本科 50 100 75.0 5-10年
773 2433090 上海 本科 35 70 52.5 5-10年
北京 2844 2538369 北京 本科 50 100 75.0 3-5年
3466 2462755 北京 本科 60 80 70.0 10年以上
3438 2480144 北京 本科 40 80 60.0 5-10年
南京 4730 2279511 南京 本科 20 30 25.0 3-5年
4742 2168293 南京 本科 18 30 24.0 5-10年
4744 2512050 南京 本科 18 28 23.0 5-10年
厦门 4890 2559895 厦门 本科 20 30 25.0 1-3年
4897 2042554 厦门 硕士 15 30 22.5 不限
4899 1894326 厦门 不限 10 20 15.0 不限
天津 4979 2343332 天津 本科 15 20 17.5 5-10年
4983 2472967 天津 本科 12 20 16.0 不限
4977 1934925 天津 本科 10 20 15.0 3-5年
广州 4070 1110078 广州 本科 30 60 45.0 5-10年
4068 2434980 广州 本科 30 50 40.0 5-10年
4090 817308 广州 本科 30 50 40.0 5-10年
成都 4647 2324434 成都 本科 50 80 65.0 5-10年
4653 1317528 成都 本科 20 40 30.0 5-10年
4651 2437522 成都 本科 20 40 30.0 5-10年
杭州 4552 2032485 杭州 本科 40 80 60.0 不限
4437 2478818 杭州 大专 40 80 60.0 3-5年
4513 2522123 杭州 本科 30 60 45.0 5-10年
武汉 4820 2551255 武汉 本科 18 35 26.5 5-10年
4794 2491598 武汉 不限 20 30 25.0 3-5年
4829 2514347 武汉 本科 20 30 25.0 5-10年
深圳 1363 2573388 深圳 本科 50 100 75.0 5-10年
1378 2568716 深圳 本科 40 70 55.0 5-10年
1395 2040814 深圳 本科 38 58 48.0 5-10年
苏州 4958 2064345 苏州 本科 25 35 30.0 5-10年
4962 1818358 苏州 本科 20 40 30.0 5-10年
4957 2578959 苏州 硕士 20 35 27.5 5-10年
西安 4867 2003822 西安 本科 30 40 35.0 5-10年
4861 2574659 西安 本科 15 30 22.5 3-5年
4865 2351139 西安 本科 10 20 15.0 5-10年
长沙 4911 2316232 长沙 本科 10 20 15.0 1-3年
4922 2182674 长沙 本科 10 20 15.0 3-5年
4916 1708654 长沙 大专 9 18 13.5 3-5年
//input3
position.groupby('city').agg(['sum','mean'])
//output3
positionId bottom top avg
sum mean sum mean sum mean sum mean
city
上海 2096836768 2.166154e+06 12415 12.825413 21100 21.797521 16757.5 17.311467
北京 5142370186 2.205133e+06 31931 13.692539 55281 23.705403 43606.0 18.698971
南京 184939705 2.255362e+06 662 8.073171 1146 13.975610 904.0 11.024390
厦门 58501438 1.950048e+06 231 7.700000 427 14.233333 329.0 10.966667
天津 44432139 2.221607e+06 126 6.300000 204 10.200000 165.0 8.250000
广州 740477755 2.216999e+06 3144 9.413174 5359 16.044910 4251.5 12.729042
成都 294452821 2.213931e+06 1267 9.526316 2178 16.375940 1722.5 12.951128
杭州 886223073 2.199065e+06 4788 11.880893 8498 21.086849 6643.0 16.483871
武汉 146508765 2.123315e+06 559 8.101449 1000 14.492754 779.5 11.297101
深圳 1114813038 2.135657e+06 6641 12.722222 11664 22.344828 9152.5 17.533525
苏州 79232161 2.141410e+06 392 10.594595 685 18.513514 538.5 14.554054
西安 81936242 2.214493e+06 290 7.837838 497 13.432432 393.5 10.635135
长沙 53261203 2.130448e+06 174 6.960000 306 12.240000 240.0 9.600000
网友评论