注:1.本项目所有的代码均放在了我的GitHub上,戳我戳我进行访问。2. 感谢周同学的指点,补充了关于所属行业的分析以及调整了多项计数的方式。
项目背景
最近在考虑暑假去哪里找个实习的事情,刚好有朋友在群里转发了一篇文章——数据分析师挣多少钱?“黑”了招聘网站告诉你!读完之后就来了灵感。我也可以对相关的实习岗位做个类似的探索和分析嘛!
项目简介
本次项目要利用爬虫爬取实习生网上数据分析这一岗位的信息,然后进行一些探索和分析,最后得到一些结论。
数据来源和数据集
我利用第三方工具pyspider写了一个简单的爬虫对数据进行爬取。实习生网站的结构比较规范,元素比较少,定位也比较简单,省了不少力气。
最后得到了下列主要信息——职位名称title,日薪daymoney,每周最少出勤天数days,工作职位描述jobdescribe,持续时间lasting,行业分布industry和城市location。
目的
通过实际的数据来解答针对数据分析实习岗位的一些疑惑:
- 如果我想要得到一份数据分析实习工作,我需要保证每周出勤几天?
- 如果我想要得到一份数据分析实习工作,我需要保证至少实习持续多久?
- 整体数据分析实习生日薪分布的情况;
- 不同城市数据分析实习生的日薪情况;
- 从用人单位的角度看,数据分析实习生应当具备哪些技能?
- (新增)哪些行业需要数据分析师?
数据清洗和整理
首先,因为爬虫爬取的是有关“数据”的所有相关实习工作。但是实际上,实习生网在分类的时候并不是特别严谨,很多工作内容稍微涉及点数据的也被划入这个分类。所以需要对现有的数据进行筛选。我的筛选规则是,当工作名称或者工作描述中出现了“数据”和“分析”这两个个词,我们就认为是我们想要的内容。按这条规则进行筛选,1058条数据最终保留616条。
之后,我对几个字段进行了处理,主要是对日薪daymoney,每周最少出勤天数days,工作职位描述jobdescribe,持续时间lasting,行业industry和城市location做了数据清洗和处理。
日薪daymoney:实习生网的日薪格式是固定的,以“150-200元/天”这种形式呈现。为了方便后续分析,我取了日薪的平均数,并且将字符串转成int格式。
每周最少出勤天数days和持续时间lasting:去掉不必要的字符仅保留数字,转成int格式。
行业industry:因为一个公司可能会有很多行业属性,比如“互联网/金融”,所以我对该字段做了分割,并且储存为列表形式。在后续计算频率时,用单项除以总个数(1/n),比如刚才提到的“互联网/金融”,则互联网出现次数计为0.5,金融也计为0.5。
城市location:存在着一个岗位允许多地实习,所以该字段由字符串转变成包含一个个城市的列表,在后面按城市岗位计数分析中,计数方式与行业industry字段的计数方式相似。
工职位描述jobdescribe:利用jieba分词,储存为列表格式,为后续画制词云做准备,并且对英文字符进行了大写转换。
数据分析
1. 哪些行业需要数据分析实习生?
数据分析实习生行业分布我试图找出哪些行业对数据分析实习生的需求比较大,并且选取了前十五名的行业。从上述图表不难看出,互联网,计算机,金融,电子商务和企业服务这五个行业对数据分析实习生的需求量较大,而咨询,生物,医疗等也均有一定的涉及。如果你恰好对这些行业有一定的了解,可能会在一定程度上增大你找到实习工作的机会。
2. 最少出勤天数
最少出勤天数/天大学生是找实习的主要群体,但是由于仍有课业,时间安排比较成问题,我读大学的时候就有同学因为学校每天有课所以放弃实习,也有同学为了实习逃掉了大部分的课。一般来说,一周三天实习,剩下的两天学校上课,这样安排比较合理。但是根据我们的数据分析实习岗位的分析,大多数的公司要求实习生至少出勤五天,其实也就是全勤。然后比较多的是至少四天。当然,我们还能发现有些存在着“丧心病狂”的公司,要求实习生至少出勤六天。
从出勤天数可以得出,假如你打算找一份数据分析的实习工作,你必须要先确保自己的时间充足,因为大多数实习都会要求你从周一干活到周五。当然,如何平衡好实习和学业也是你必须要考虑的。
3. 最短持续时间
最短持续时间/月“你能干活多久?”这是对求职者,特别是实习生在时间维度的另一个重要衡量标准。我曾经在一份实习工作中接触招聘实习生的活,领导要求实习生至少能实习两个月以上,如果满足不了这个时间的,就不再考虑,除非你的简历非常非常的优秀。
我们可以看到,在实习生网上,大多数的数据分析实习岗位都要求实习生能工作至少三个月以上,六个月以上紧跟其后,四个月的也比较多。如果你没有做好长时间实习的准备,还是别考虑这类实习了吧。当然你也可以什么都不考虑,在面试的时候告诉面试官你一定能实习较长时间——虽然有点坑对方的感觉。
4. 日薪分布情况
日薪分布从日薪分布图中可以看到,大部分的薪资水平在125元每天左右,还算是一个比较可以接受的薪资水平,如果按月算的话一般情况都是高于当地最低工资。当然也有部分能力较强的实习生可以达到每天400以上的日薪。能力越强,你的上限就越高。
5. 实习岗位的地区分布情况
实习岗位所在城市分布在这里,我只选取了前十八个的城市,只有这些城市有着数量大于一的数据分析实习生需求。和数据分析师挣多少钱?“黑”了招聘网站告诉你!的结果相类似,北上广、杭州,成都和深圳占据了前六的位置,只不过在这里广州取代了深圳排在第三,杭州第四,成都第五。
如果你在这里这些城市读大学,那么恭喜你,你比别人有着更多的机会,更有可能找到一份相关的实习工作。当然,你也要清楚的认识到,机会越多不意味着一定是好事,面临的竞争压力也是需要考虑的。如果你不在这些城市,在合理安排时间前提下,可以考虑异地实习,试着往这些城市的相关公司投递简历,说不定就有面试的机会了!
6. 不同城市日薪分布情况
接下来我们把薪酬和城市分布相结合,来看看在哪里做一份数据分析类相关的实习工作会获得更高的薪资。
不同城市日薪分布受到整体数据量的影响,我只选取了前八个城市来分析他们的日薪分布。其中北京以150元的平均日薪排名最高,上海和深圳紧随其后,广州、杭州和天津的平均日薪相仿。北京,上海,广州,杭州,深圳和成都都有比较例外的情况,给实习生开出了很高的工资。所以尽量选择上述城市的公司,可能薪水条件会相比其他地方较好。
7. 岗位要求
我利用jieba分词和wordcloud制作了词图,一个词出现的频率越高,他就会在图中越显眼。当然,我事先过滤掉了一些不太重要的,会影响最后结果的stopwords(stopwords也可自行添加或者删除),具体的文本可以在项目文件里查看。
岗位技能要求词云不出所料,Excel和SQL占据了比较大的部分,我所期待的python虽然也出现在了比较显眼的位置,但是没有前两者那么显眼。这也反映了数据分析这个岗位的现状。其实大多数的数据分析工作并不繁琐,可以通过Excel完成,有一种夸张的说法是:学会vlookup,走遍天下都不怕。当然啦,如果你要找一份称心如意的数据分析实习,你需要明确自己的定位,了解自己所学的内容在数据分析这块领域里的位置。比如你学了很长时间的python,结果你找了个对Excel要求极高的工作,既不能锻炼自己的实战能力,也给人家公司带来资源浪费损失。
除此之外,几个出现频率比较高的有“经验”,团队,沟通,运营。一些数据分析中要用到的工具,除了python之外,都出现的比较少。
结论
- 大多数需要数据分析实习生的岗位分布在互联网,计算机和金融
- 大多数的数据实习生岗位都要求你五天都能到岗,并且可持续时间越长越好,一般不低于三个月。如果你能满足这两个条件,就会拥有一项先天优势。
- 数据分析实习生大部分的薪资水平维持在100元到150元每天之间,高于或者低于这个数的较少,但不乏有例外。日薪相对来说比较客观,数据分析看起来是个不错的职业方向。
- 大多数的数据分析实习岗位集中在北京,上海,广州,杭州和深圳,如果希望找到合适的实习,可以在这些城市尝试寻找。
- 数据分析实习要求不如正式工作那么高之高。对工具型技能的要求不高,基本要求对掌握Excel和SQL即可。在非工具的技能方面,强调了经验,沟通和团队的重要性,说明数据分析这项工作需要的是比较全面的素质。
思考和总结
本次分析过程灵感来自于数据分析师挣多少钱?“黑”了招聘网站告诉你!,但由于选取对象有些不同,获取的字段相对较少,能够分析的内容有所局限。而且由于受到实习生网本身就是一家互联网企业的影响,在它上面发布招聘信息的对象更多的是互联网企业,这就会对数据,注入行业分布情况产生影响。另外,对于数据清洗的尺度还是存有些许疑虑。希望以后能对数据分析这个工作进行更加全面的研究分析。
网友评论