美文网首页爬虫,抓取
简历数据分析(完整版整理)

简历数据分析(完整版整理)

作者: GALAXY_ZMY | 来源:发表于2016-08-24 23:28 被阅读154次

    无意中,发现了某个简历网站的简历地址居然简单到只用纯数字组成访问地址,当然用户的电话,邮箱数据没有公开。不过这足够满足我的好奇了。

    下面是网址的部分内容(已处理,非真实数据):

    .com/applicant-312359120.html
    

    <b>可见其危险性有多高,以后要慎记,对外公开地址要加密</b>。

    像这种纯数字,会泄漏很多内容,通过简单测试每位为5时是否存在简历,以这种“折半查找”的思想,几分钟内即可查到<b>“起始ID”</b>和<b>“截止ID”</b>,用最简单的循环抓取即可轻松download下整个网站的简历库(做好异常处理,半夜进程停了可就不好了)。不仅可以知道简历库的量(可以看出公司的资源量),还可以了解到每天的新注册量。

    将收集的近50万份(预估量54万,看来很接近)简历数据简单整理了一下,做了一个简单的统计。

    1.性别比例

    为什么女性比男性多呢?这个或许与男女就业形势有关吧。


    性别比例(数据基数47万)
    2.姓氏

    看了看姓氏,百家姓变化还真大.


    姓氏比例(数据基数43万)
    3.籍贯

    50万份简历数据只有16万份有籍贯,看来好多简历都是无效的。

    从下面的图反映的还是比较准确的,基本上都是人口大省。


    区域分布(数据基数16万)
    4.专业

    会计加会计学比例达到5.9%,我的理解是几乎每个学校都有这个专业,而社会需求可能没想像的那么高,最终导致当年的热门变成就业困难的重灾区。而且这10个专业的人数比例超过1/4。


    专业(数据基数38万)

    看看下面这个统计或许就更直观了,只是没想到“会计”这么高。

    专业人数排名
    5.学历

    中技、博士后、其它三项人数百位,在统计图不显示。


    学历(数据基数38万)

      由于数据基数还是低,所以我认为初中人数多于高中人数是不正常的,或许是注册者并未填写真实有效信息。大专人数感觉偏低,可能是本简历信息来源网站的原因,更多的是本科以上学历求职者。

    6.来源学校

    大学总数19692,基本覆盖了国内所有大学。


    学校人数排名(数据基数38万)

    基于这份有关学校的数据,我对上篇有男女比例的数据加一些补充,由于是针对应届生,女生更向往大型,稳定性更高的企业,而此类企业也会更多的选择应届生,所以会对性别比例产生一定影响。

    注:部分图表制作来源于http://www.highcharts.com/demo
    (数据仅供参考)

    相关文章

      网友评论

        本文标题:简历数据分析(完整版整理)

        本文链接:https://www.haomeiwen.com/subject/wsmosttx.html