项目背景:
通过了15天的Python和数据分析学习,现在回顾一下,发现有些知识比较零散,而且自己目前也面临找工作的问题。因此有必要整合目前的知识,进行项目实操。通过这个项目,结合Python的数据分析工具,并且使用excel做图表处理工具。
项目简介:
目前准备找数据分析的工作,那么解决自己接下来技能的提升,是否该走出程度等问题便是第一步,解决这些问题的信息从企业需求中获得,因此本项目通过爬虫爬取了前程无忧(51job)上的四川省及周边省份的岗位信息进行探索,以此整合所学的知识并解决当下的问题。
数据来源:
本项目所使用的数据来源于前程无忧。使用的网络爬虫为集搜客。
前程无忧在我的印象中一直都是比较适合大学生的招聘网站,而且筛选机制也非常全面。因此从中得到的数据会更加贴近我的需求,同时在采集的过程中发现由于时间和城市所在地的原因,如果仅采集成都、重庆等城市,数据量过少,无法使样本具有代表性,因此以四川省+贵州省+云南省+甘肃省+陕西省作为采集范围,考察以西南地区的数据分析需求情况。
共爬取350条数据(均包含数据分析关键词),本次爬取信息的时候,主要爬去了以下信息:
公司名称,行业性质,公司规模,招聘人数,发布时间,月薪,学历要求,经验要求,职位描述及岗位职责。
目的:
大问题是想要解决自身如何找到一份数据分析的工作的问题。
细分问题:
数据分析入门有哪些技术要求
整个行业的薪资水平如何分布
数据分析岗位集中在哪些行业
行业对数据分析人员的经验和学历要求如何
数据分析行业公司普遍规模
以西南地区的数据分析岗位主要在哪些城市
技术和工具:
本项目主要是两大部分,数据爬取部分和数据分析部分。
数据分析部分主要采用Python的jieba分词和Excel数据制表,并使用了词云Tagxedo制作词云。
数据初步处理
爬取350条数据,生成原始数据副本,并对副本进行初步处理,处理过后剩下342条数据,每条数据基本完整,较少缺失。
1.去重
2.文本与数据分离
3.均值填补缺失
4.形成透视表
数据分析
1.以数据分析入门有哪些技术要求的问题为导向,导入python脚本进行分词和词云的生成
输出结果:
生成的词云:
文字的分词的数量过多,这里只取前30,同时词云软件对中文的识别的效果不足,因此以文字版的分词为主,综合而言:
前十的技能:
统计、管理、运营、数学、数据库、Excel、建模、SQL、SAS、SPSS
Excel看来在目前的数据分析行业是必备技能,其次就是常用的数据分析软件,python,hadoop,spark,java,Bi等技能也是掌握了上面的技能后一个不错的延伸选择。不过现在python,R慢慢能够充当起数据分析软件,只是从入门来说,SPSS这种入门更为简单。
2.以整个行业的薪资水平具体是如何分布的问题为导向,生成如下图表
输出结果:
整个行业薪资水平集中在2500-5500,这个水平的工资是非常适合毕业大学生的,相对于已经有多年经验的转行人员而言,目前西南地区的工资水平不具有太大吸引力。
3.以数据分析岗位集中在哪些行业的问题为导向,导入python脚本进行分词统计(过滤频数掉低于10的数据)
输出结果:
生成词云如下:
通过前三行能够在一定程度检验的有效性,因为互联网本身就和数据分析呈正相关。接下来便是一些零售行业,思考下后认为这很合理,目前新零散的感念越来越热,线上线下不断结合,零售紧跟互联网的发展也是非常正常的的。因此选择科技公司会更贴近数据分析的发展。
4.以行业对数据分析人员的经验和学历要求如何的问题为导向,生成如下图表
输出结果:
对比下2017年21数据新闻实验室统计上市公司2017年半年报,从中截取一组各行业学历占比情况:
可以看出,对于西南地区,数据分析岗位在计算机相关行业中真的十分年轻,大部分公司对于学历要求并不高。本科上学历要求仅接近38.9%,远低于计算机行业的57.13%(本科占比),同时27%的企业未直接给出学历要求,这里我们把无要求定义为"有机会,看能力"。那么仅仅从面试机会的角度而言,从事数据分析起码在初期有相当多的机会。
同时在工作经验这一方面,大部分企业能够接受无工作经验,这也反映出数据分析行业的年轻。这对于即将毕业的大学生,甚至想要转行的人都是非常好的行业现状。
5.以数据分析行业公司普遍规模的问题为导向,生成如下图表
输出结果:
可以看出,数据分析岗位的分布非常接近一条平滑的抛物线,该抛物线的尾巴在右边。如果按照正太分布来讲,这是一条右偏的正太分布,右偏说明数据分析行业中好的公司规模可以达到头部企业的水准,对于从事数据分析的人员,这就是未来上升的可能性。
6.以西南地区的数据分析岗位主要在哪些城市为导向,生成如下图表:
输出结果:
留下成都从事数据分析行业是一个不错的选择,也可以根据实际居住位置选择较近的西安和昆明。至于其他城市,建议慎重考虑。
分析结论
通过上面的分析,我们可以得到的结论有这些:
1.EXCEL、SQL是数据分析师必备的技能,其次就是选择SAS,SPSS,python,R中的一个作为入门必备的统计软件,同时如果有数学或者统计背景,建模和完成算法的能力将会变得非常有竞争力。
2.大多数据分析师的收入集中在2000-2500,非常刚适合毕业的大学生进入。
3.从行业性质上看,数据分析师留在科技型公司,计算机领域是合适的选择。
4.数据分析是个年轻的职业方向,大量的工作经验需求集中在1年及以下,同时对于有5年经验的数据分析人员的需求远低于平均值,推测可能是数据分析行业本身的年轻和职位稳定性较高造成的。
5.数据分析行业公司规模均匀分布,未来有机会进入特大企业发展。
6.数据分析这一岗位,在西南地区主要集中在成都,如果有本身住在成都且想要从事数据分析的小伙伴。恭喜你,你的地理位置非常优越。
思考和总结
对于数据分析岗位的分析还比较简单,有一些专业的图形比如正太分布,因技能的不熟练还无法轻松地制作出来。同时在分解的数据还可以进行两两的交叉比较,暂时由于技能的欠缺,无法实现可视化。如果要对这些内容进行深入挖掘的话,相信应该会更加有价值。要进行这些内容的话,需要进一步掌握python numpy,maltiply等包、目前我的学习时间过短,这些都还达不到能够融入项目的地步,还需要不断优化。
作者
@TP龙
文章可以转载,但必须注明作者和出处。
网友评论