美文网首页呆鸟的Python数据分析项目合集
数据分析学习笔记(3)——利用Excel进行数据分析

数据分析学习笔记(3)——利用Excel进行数据分析

作者: 小陈学数据 | 来源:发表于2018-09-24 20:07 被阅读54次

    本章主要讲述对上一章中爬取的数据通过Excel进行数据清洗和分析。

    数据分析的基本步骤为:提出问题->理解数据->数据清洗->构建模型->数据可视化。

    1. 提出问题

    本次数据分析主要要分析的问题为:

        1.1 上海数据分析师招聘对于学历的要求。

        1.2 上海数据分析师招聘对于工作年限的要求。

        1.3 上海数据分析师工作年限与薪资间的关系。

        1.4 上海数据分析师招聘公司规模分布。

        1.5 上海数据分析师地区分布。

    2. 理解数据

    本次爬取得数据共有14个字段。

    字段名及解释

    3. 数据清洗

    数据清洗的主要步骤为:选择子集->列名重命名->删除重复值->缺失值处理->一致化处理->数据排序->异常值处理。

        3.1 选择子集

        根据提出的问题,本次分析主要要用到的有positionId,education,workYear,  salary, financeStage, companySize以及district。因此,可以先将整个原始数据复制一份到一个新的表格中,对新表格开始进行数据清洗。首先将不需要的列删除或者隐藏。

    隐藏后留下的数据

        3.2 删除重复项

        由于列名已经设置好,因此跳过列名重命名这一项,直接进行重复项删除,因为每个岗位都有一个独自的positionId,所以要进行重复项删除的时候,可以以positionId为主键进行去重操作。

    删除重复项

    选择数据选项卡,选择删除重复值,选择positionId列,进行删除。

        3.3 缺失值处理

        经过查看后,没有发现有列存在缺失值,因此这步也可以跳过,如果存在缺失值,则有一下三种方式进行缺失值填充:1)通过人工手动补全。2)删除缺失数据。3)用统计值进行代替,如平均数,众数,中位数。4)用统计模型或机器学习算法计算出值进行填充。

        3.4 一致化处理

        对于salary列,需要用到数字进行排序,而且取值范围过多,因此决定取平均值作为一个新的列,要对其进行取数操作。首先是取出最低薪资,然后取出最高薪资,并求平均值。

    利用LEFT函数结合FIND函数取出最小值 利用MID函数结合FIND函数和LEN取出最大值  

    随后利用筛选功能发现有报错。

    选择报错项查看问题所在。

    报错原因为大写K

    发现报错是因为大写的K无法用FIND找到,因此这里利用查找替换功能把大写的K全部换成小写的k。

    替换完后报错消失

    然后再对最大薪资进行检查。

    同样有报错

    筛选后发现是由于其中包含了文字。

    因此直接把最小值赋给最大值作为参考。在处理完后,如果直接用最大值和最小值求平均会得到以下结果。

    这是由于bottom和top的数据类型并不是数字,而是从字符串中截取的字符串类型,所以要先把这个数据复制下来并进行分列处理,转成数字。

    复制后再用分列处理将值变为数字类型。

    随后利用数字类型求出平均值,然后隐藏不需要的列即可。

    4. 构建模型和数据可视化

    数据清洗完成后,开始进行模型构建,这里主要用到的是数据透视表来进行关系建模。

    根据提出的问题进行模型构建:

        4.1 上海数据分析师招聘对于学历的要求。

    上海数据分析师招聘学历分布

        通过数据透视表制图后得出,上海对于数据分析师的学历要求大部分都处于本科学历,其岗位数值为1930个,占总岗位数的80.52%。因此上海数据分析师岗位对于学历的要求不算特别的高,相对而言不是特别的看重学历。

        4.2 上海数据分析师招聘对于工作年限的要求。

    上海数据分析师招聘工作年限分布

        通过数据透视表制图得出,上海的数据分析师岗位对于3-5年工作经验的需求最高,其次是1-3年的工作经验,因此可以看出,大部分的数据分析师的岗位,对于工作经验,都有一定的要求,因此相比学历,上海的数据分析师岗位更加看重工作经验的积累。这一点可能是作为入行的最大难点。

        4.3 上海数据分析师工作年限与薪资间的关系。

    上海数据分析师工作年限与薪资关系

        根据上图可以看出,上海数据分析师,应届毕业生的平均薪资为9.1k,作为起薪对比各个行业中都属于相对较高的了。而在有了一定的工作经验之后,薪资可以达到月薪15k的水平,其中1年以下工作经验和1-3年工作经验的平均薪资上差不多,因此从刚开始工作到拥有3年工作经验的期间,薪资主要集中在15k上下,在达到3年工作经验以后,又会有一个增长,3-5年平均薪资将会达到23k,在5-10年的工作经验区间内,薪资提升到了31k,超过10年工作经验后薪资则会大幅提升,平均薪资为53k。以上薪资均为月薪的平均值。因此可以看出,上海的数据分析师,无论是入行起薪,还是未来的职业发展,薪资增长,对比各行业都是非常不错的。

        4.4 上海数据分析师招聘公司规模分布。

    上海数据分析师招聘公司类型分布

        根据上图,可以看出,在上海,公司人数越多,规模越大,对数据分析师的岗位需求越大,其中2000人以上的公司中,上市公司对数据分析师的岗位需求最大,其次是D轮以上公司,因此可见,随着公司规模的不断扩张,数据分析师的重要性也会越来越高,公司越大,越需要对数据进行分析从而给公司方向性的指导。在500-2000人及150-500人的中大型公司中,则是主要以不需要融资的公司为主。但总体分布而言,公司人数和规模越大,公司对数据分析师的岗位需求也会越强。

        4.5 上海数据分析师地区分布。

    上海数据分析师招聘地区分布

        根据上图统计,在上海,浦东新区对于数据分析师的岗位需求最多,其中有775个岗位,占到总数的32%左右,大约有三分之一的岗位需求在浦东新区。原因可能有以下几个:1)浦东新区有陆家嘴,其中集中着大量的金融公司,金融公司对于数据分析师有大量需求。2)浦东新区有许多的互联网公司,尤其是张江高科园区内,有着大量的互联网公司,而互联网公司对于数据分析师有着较大的需求。除了浦东新区,包括徐汇区,长宁区,杨浦区内环区,均有大量的工作岗位,其原因可能是因为在市区有着更多的大型公司,而大型公司对于数据分析师的需求更高。

    5. 结论与建议

    综上,数据分析师对于学历的要求属于相对基本,不是决定性因素,而对于工作经验则相对看重。数据分析师的起薪非常不错,未来的职业发展和薪资增长也非常有前景。数据分析师去到大型企业或者公司的机会会更大,因为大型企业或公司对于数据分析师的需求更高,同时在上海工作,去到市中心或者浦东工作的概率会更大

    本章结束,下一章会列出一些SQL的练习和答案。

    相关文章

      网友评论

        本文标题:数据分析学习笔记(3)——利用Excel进行数据分析

        本文链接:https://www.haomeiwen.com/subject/ebthoftx.html