在公司里面,我利用python分析了超市发连锁店的品类数据.
由于数据不方便透露.
这里"分析2017年数据产品薪资",展示数据分析流程.
1.数据获取.
采用web scraper抓取网站数据.
引用了这篇文章 https://www.jianshu.com/p/76cad8e963b5
得出了拉勾的数据产品的数据.
2.载入数据
image.png
3.清洗数据
-
3.1 检查是否有重复值,并清除重复值
image.png
这里故意设置了positionId为重复值,通过drop()删除.
-
3.2 清洗薪资字段
image.png
注意到先前的薪资不是数值,通过一些字符串方式,将薪资转换为数值,设置薪资的上限和下限,方便下一步处理.
image.png随后,我们将薪资的上限和下限转化为平均薪资.
4.提出干净的数据
image.png
我们将要使用的数据提出来.
5.数据分析
我们直接看关键数据
-
北京数据产品经理1~3年的中位数薪资是2w... 3~5年的平均薪资是2.3w左右.
image.png
-
北京1-3年数据产品经理,薪资平均值为 19.166667,3-5年为23.504274,比上海高.
image.png -
北京招数据经理雇主最多的是美团,有14个职位
image.png -
北京对数据产品提及最多的关键词是"数据分析","大数据","数据挖掘"
image.png
网友评论