美文网首页
Python抓取拉勾网职位利用pandas进行数据可视化分析(下

Python抓取拉勾网职位利用pandas进行数据可视化分析(下

作者: 飞飞飞段啊 | 来源:发表于2019-12-09 16:41 被阅读0次
    1. 接上篇Python爬虫抓取拉勾网的一点心得思路,将主要的几个城市全部抓取下来,包括北京、上海、广州、杭州、成都、武汉、深圳六大城市全部的爬虫岗位信息。每个城市一个csv文件,保存到本地。

    2.现将这些个数据整合一下来简单分析下

    • 首先利用pandas将这么csv文件合并成一个文件
    import pandas as pd
    import os
    
    def merage_csv():
        files = [file for file in os.listdir('./') if file.endswith('csv')]  # 当前目录包含需要合并的csv文件
        # 读取所有的csv文件
        all_csv = [pd.read_csv(file, encoding='utf_8_sig') for file in files]
        # 合并所有的csv文件到一个新的文件
        combie_csv = pd.concat(all_csv)
        # 写入到新的文件中
        combie_csv.to_csv('合并职位.csv', index=False, encoding='utf_8_sig')
    

    合并之后的数据


    image.png
    • 利用pandas读取合并之后的csv文件做个简单分析

    1.先来读取下表格


    image.png

    2.来看下有多少个职位


    image.png
    全国六大城市加起来384个(2019-12-9日统计) •́へ•́╬,不能愉快的玩耍,据说玩得好的现在都在局子里喝茶?
    3.看下薪酬怎么样
    image.png

    15-25K区间是最多的,20-40K位列前三最多??

    3.岗位对于学历的要求;画个图更为直观


    image.png

    果然还是本科主打

    4.看下工作年限要求;画个饼状图看看


    image.png

    普遍要求3-5年,其次是1-3年

    从最近一段时间来看,爬虫岗位因为近下半年各大金融公司出事因为爬虫的原因,小伙伴纷纷表示爬虫写得好,牢饭吃的饱。还是那句话,不管怎么样,技术是中立的,使用技术完成的商业行为才需要受到法律的监督。因为热爱所以坚持

    相关文章

      网友评论

          本文标题:Python抓取拉勾网职位利用pandas进行数据可视化分析(下

          本文链接:https://www.haomeiwen.com/subject/fizbgctx.html