Python抓取拉勾网职位利用pandas进行数据可视化分析(下

作者: 飞飞飞段啊 | 来源:发表于2019-12-09 16:41 被阅读0次

接上篇Python爬虫抓取拉勾网的一点心得思路，将主要的几个城市全部抓取下来，包括北京、上海、广州、杭州、成都、武汉、深圳六大城市全部的爬虫岗位信息。每个城市一个csv文件，保存到本地。

2.现将这些个数据整合一下来简单分析下

首先利用pandas将这么csv文件合并成一个文件

import pandas as pd
import os

def merage_csv():
    files = [file for file in os.listdir('./') if file.endswith('csv')]  # 当前目录包含需要合并的csv文件
    # 读取所有的csv文件
    all_csv = [pd.read_csv(file, encoding='utf_8_sig') for file in files]
    # 合并所有的csv文件到一个新的文件
    combie_csv = pd.concat(all_csv)
    # 写入到新的文件中
    combie_csv.to_csv('合并职位.csv', index=False, encoding='utf_8_sig')

合并之后的数据

image.png

利用pandas读取合并之后的csv文件做个简单分析

1.先来读取下表格

image.png

2.来看下有多少个职位

image.png
全国六大城市加起来384个(2019-12-9日统计) •́へ•́╬，不能愉快的玩耍，据说玩得好的现在都在局子里喝茶?
3.看下薪酬怎么样
image.png

15-25K区间是最多的，20-40K位列前三最多？？