美文网首页
Python实战——济南信息安全行业数据分析

Python实战——济南信息安全行业数据分析

作者: RabbitMask | 来源:发表于2019-04-24 16:40 被阅读0次

    笔者为信息安全行业一入门小白,最近对数据分析行业饶有兴致,借此机会对笔者所在区域(济南)信息安全行业进行一数据分析,数据源自智联,数据中所涉及公司数据均为已公开数据,比起说涉及贵司利益,贵司对这份数据更有兴致一些吧。

    数据获取

    数据分析的第一步自然是获取数据,刚准备对智联动手的我发现github上已有开源的python脚本了,貌似还是挺受欢迎的。但这个脚本写的比较早,智联网站已经采用了api接口的形式返回数据,之前的脚本已经完全不能用了,无奈,只能自己写了。

    早期接口采用以下形式,即搜索功能GET请求直接获取内容,然而现在数据包并不在此返回。

    早期接口

    而现在的接口则采用fe-api返回json类型的数据:

    当前接口

    我们来简单分析下,智联在此的涉及相当于对早期地址进行了一个转换:
    https://sou.zhaopin.com/?p=1&jl=702&kw=信息安全
    https://fe-api.zhaopin.com/c/i/sou?pageSize=90&cityId=702&kw=信息安全
    其实新地址中还有一个pagestart参数,pageSize的单位是90,简单理解就是一页的内容为90个size,如果我们查看第五页的内容,则就是pagestart=360&pageSize=90,而如果我们直接扩大pageSize=900,则就是从第一页开始请求了十页的数据,理解了这个新版的设定,我们就开工了。

    #生成地址列表
    def get_urls():
        urls=[]
        for keyword in job_name:
            for i in place_name:
                url = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=1800' + '&cityId=' + str(i) + '&kw=' + str(keyword) + '&kt=3'
                urls.append(url)
        return urls
    

    在此涉及了请求20页数据,顺便表扬一句,早期脚本有封IP防爬的风险,而现在不会了,因为我只请求了一次,只是数据量大些罢了。如果你所在的城市是北京等一线城市,请自行调整pagesize大小。
    为了方便调整参数,我将配置内容放到了脚本最开始的地方:

    #首先根据您的需求配置如下信息:
    place_name = ['济南']
    job_name = ['渗透测试', '网络安全', '信息安全']
    

    在深思熟虑之后,在此决定获取职业名称、薪资、公司名称、地点、学历要求、工作经验六项内容,创建对应数据库、表,此处使用MySQL。

    #创建数据表
    def CreateTable():
        mydb = Connect()
        mycursor = mydb.cursor()
        create_sql = "CREATE TABLE if not exists `zhilian`.`zhilian`  (  `id` int(0) NOT NULL,  `jobName` varchar(255) NULL,  `salary` varchar(255) NULL,  `company` varchar(255) NULL,  `city` varchar(255) NULL,  `eduLevel` varchar(255) NULL,  `workingExp` varchar(255) NULL,  PRIMARY KEY (`id`))"
        mycursor.execute(create_sql)
        mydb.close()
        print ('数据表创建成功')
        logging.info('数据表创建成功')
    
    #写入数据表
    def AddTable(re1,re2, re3, re4, re5, re6):
        for i in range(len(re1)):
            mydb = Connect()
            mycursor = mydb.cursor()
            sql = "INSERT INTO zhilian (jobName,salary,company,city,eduLevel,workingExp) VALUES (%s,%s,%s,%s,%s,%s)"
            val = [(re1[i],re2[i],re3[i],re4[i],re5[i],re6[i])]
            mycursor.executemany(sql,val)
            mydb.close()
            print ('数据添加成功')
            logging.info('数据添加成功')
    

    最终拿到我们想要的数据,没必要打码了吧,就当免费打广告了。接下来我们拿这些数据做点有价值的分析。

    数据

    数据分析

    首先一个公司的活跃度从招聘热度上是可以看出来的,于是我们对手头的数据进行了词频分析,并挑选了前38名公司做了一个词云:
    唉?为什么是38?因为38名图刚好好看吖!

    公司词云

    片段如下,主要用了collections词频分析库和wordcloud词云库:

    # 词频统计
    word_counts = collections.Counter(words) # 对分词做词频统计
    
    # 词频展示
    mask = np.array(Image.open('python.jpg')) # 定义词频背景
    wc = wordcloud.WordCloud(
        font_path='C:/Windows/Fonts/simhei.ttf', # 设置字体格式
        mask=mask, # 设置背景图
        max_words=38, # 最多显示词数
        max_font_size=28 # 字体最大值
    )
    

    类似的我们来分析下薪资:

    薪资词云

    还是忍不住为济南信息安全行业捏了把汗,但并不影响信息安全行业成为主流的现实。

    过完了词云的瘾我们来看下具体数据:
    学历要求主要分为6档:不限、中专、大专、本科、硕士、博士
    首先借助词频统计进行数据整理:

    # 词频统计
    word_counts = collections.Counter(words)
    word_counts_top10 = word_counts.most_common(10)
    print (word_counts_top6)
    

    然后进行绘图,主要使用2D绘图库matplotlib:

    import matplotlib.pyplot as plt
    plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
    
    labels = ['不限','中专', '大专','博士', '本科', '硕士']
    fracs = [12.5,0.35, 39,0.35, 45.6,2.2]
    explode = [0,0,0,0,0.1,0]
    plt.axes(aspect=1)
    plt.pie(x=fracs, labels=labels, explode=explode, autopct='%3.1f %%',
            shadow=True, labeldistance=1.1, startangle=90, pctdistance=0.6
            )
    plt.show()
    

    得到如下学历需求饼状图:

    学历需求饼状图

    我们可以看到,济南信息安全行业对于学历相对宽松,本科学历基本可以自由选择,不会在学历门槛上绊倒。

    接下来想到一个问题,个人习惯性称呼渗透测试工程师的职业在各HR手中是如何命名的呢?显然,这个数据有助于我们进行职业检索:

    import matplotlib.pyplot as plt
    plt.rcParams['font.sans-serif']=['SimHei']
    
    def job_num():
        job =[]
        fr=open('job.txt','r',encoding="UTF-8")
        jobs=fr.readlines()
        fr.close()
        for i in range(len(jobs)):
            job.append(jobs[i])
    
        salary=[]
        fr=open('num.txt','r',encoding="UTF-8")
        salarys=fr.readlines()
        fr.close()
        for i in range(len(salarys)):
            salary.append(salarys[i])
    
        plt.barh(job,salary)
        plt.show()
    
    if __name__ == '__main__':
        job_num()
    

    这一刻着实有点意外,渗透测试工程师的称呼貌似在济南并不流行,正在找工作的小伙伴们注意啦,试着搜下信息安全工程师吧~

    职业名称

    接下来,对于不了解济南的人讲,肯定会好奇信息安全行业在济南是如何分布的呢?
    我们首先进行词频统计,过半的公司只标注了济南,未具体到具体区县,本次不列入统计。然后借助封装了百度开源图表库echarts的pyecharts库来进行地图定位:

    from pyecharts import Map
    
    attr = ['高新区', '历下区', '市中区', '历城区', '天桥区', '槐荫区','商河县','济阳县','章丘区','长清区','平阴县']
    values = [61, 11, 7, 7, 4, 2, 0, 0, 0, 0, 0]
    
    map = Map("济南地图",'济南', width=1200, height=600)
    map.add("济南", attr, values, visual_range=[1, 10], maptype='济南', is_visualmap=True,
        visual_text_color='#000')
    map.render(path="JN.html")
    
    JN

    这一块我的内心是崩溃的,今年高新区是后来加的,从历城区历下区各拿出了一块拼凑的,但是百度地图显然没有将高新区作为一个行政区对待,emmmm,高新区的数据崩掉了鸭,这完了鸭!
    出于私心,将高新区的数据历城区历下区七三分成,勉强作为最终数据。

    终章

    emmm,最终恭喜历城历下区夺得冠亚军!咳咳,说到底,信息安全行业重心出现在高新区也是完全合乎情理的。

    什么?少了工资排行,咳咳,这么敏感的小东西感兴趣还是私下py吧。作为python数据分析的初体验,就到这里~

    最后奉上2019版最新智联招聘信息获取脚本,找到工作的小伙伴记得给小心心~

    https://github.com/rabbitmask/ZLinfo

    嘤~

    相关文章

      网友评论

          本文标题:Python实战——济南信息安全行业数据分析

          本文链接:https://www.haomeiwen.com/subject/nikvgqtx.html