- 接上篇Python爬虫抓取拉勾网的一点心得思路,将主要的几个城市全部抓取下来,包括北京、上海、广州、杭州、成都、武汉、深圳六大城市全部的爬虫岗位信息。每个城市一个csv文件,保存到本地。
2.现将这些个数据整合一下来简单分析下
- 首先利用pandas将这么csv文件合并成一个文件
import pandas as pd
import os
def merage_csv():
files = [file for file in os.listdir('./') if file.endswith('csv')] # 当前目录包含需要合并的csv文件
# 读取所有的csv文件
all_csv = [pd.read_csv(file, encoding='utf_8_sig') for file in files]
# 合并所有的csv文件到一个新的文件
combie_csv = pd.concat(all_csv)
# 写入到新的文件中
combie_csv.to_csv('合并职位.csv', index=False, encoding='utf_8_sig')
合并之后的数据
image.png
- 利用pandas读取合并之后的csv文件做个简单分析
1.先来读取下表格
image.png
2.来看下有多少个职位
image.png
全国六大城市加起来384个(2019-12-9日统计) •́へ•́╬,不能愉快的玩耍,据说玩得好的现在都在局子里喝茶?
3.看下薪酬怎么样
image.png
15-25K区间是最多的,20-40K位列前三最多??
3.岗位对于学历的要求;画个图更为直观
image.png
果然还是本科主打
4.看下工作年限要求;画个饼状图看看
image.png
普遍要求3-5年,其次是1-3年
从最近一段时间来看,爬虫岗位因为近下半年各大金融公司出事因为爬虫的原因,小伙伴纷纷表示爬虫写得好,牢饭吃的饱。还是那句话,不管怎么样,技术是中立的,使用技术完成的商业行为才需要受到法律的监督。因为热爱所以坚持
网友评论