Python爬虫：爬取拉勾网职位信息存入excel

作者: 阳光依然打在地上 | 来源:发表于2016-11-01 11:14 被阅读1260次

Python爬虫：爬取拉勾网职位信息存入excel
拉勾爬虫实战
Python爬虫-拉勾网职位爬取
Python、Java 薪资最高，C# 垫底：分析什么编程语言最
Python爬虫作业 | 爬取拉勾职位信息
拉勾网前端职位数据分析（Excel，Python工具）
拉勾网职位信息爬取
Python urllib爬取拉勾网职位信息
拉勾网职位列表爬取
simple数据分析——拉钩职位（python）

校招进入火热状态，学人力资源管理的我想了解当前全国HR职位情况的相关数据，所以将近期爬虫目标瞄准了拉勾网 [坏笑]

校招季跪求offer

前期准备

打开拉勾首页，按F12进入页面调试模式，关注network标签。我们要获取的是网站中所有HR岗位的相关信息，可以发现，所有数据都是通过json来传递的。

拉勾网

实现翻页

点击下一页，观察页面变化，可以发现每点击一个页面，就多了一个"position... .json"的请求，仔细观察，可以发现是post数据中pn(即PageNumber)发生了变化。

拉勾网第二页

源代码

#!user/bin/python# 
-*- coding:utf-8 -*-
import json
import requests
import xlwt

#解决编码问题
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

#获取存储了职位信息的json对象，遍历获得公司名、职位、待遇等信息
def get_json(url,page): 
   datas = {"first": "true",           
            "pn": page,           #pn变化实现翻页
            "kd": "HR" }    
  s = requests.post(url, data=datas).json()    #reqquests获得json对象
  info_list = []    
  jcontent = s["content"]["positionResult"]["result"]    
  for i in jcontent:        
    info = []        
    info.append(i["companyFullName"])        
    info.append(i['companySize'])        
    info.append(i['positionName'])        
    info.append(i['education'])        
    info.append(i['financeStage'])        
    info.append(i['salary'])        
    info.append(i['city'])        
    info.append(i['district'])        
    info.append(i['positionAdvantage'])        
    info.append(i['workYear'])        
    info_list.append(info)    
    print json.dumps(info_list, ensure_ascii=False, indent=2)    
return info_list

#实现翻页，结果写入excel文件
def main():    
   url="http://www.lagou.com/jobs/positionAjax.jsonneedAddtionalResult=false"
   page=1    
   info_result=[]    
   title = ['公司全名', '公司规模', '职位名称', '教育程度', '融资情况', "薪资水平", "城市", "区域", "优势", "工作经验"]    
   info_result.append(title)    
   while page < 31:        
      info=get_json(url,page)        
      info_result=info_result+info        
      page+=1        
      workbook = xlwt.Workbook(encoding="utf-8")        
      booksheet = workbook.add_sheet('HR', cell_overwrite_ok=True)        
      for i, row in enumerate(info_result):            
           for j, col in enumerate(row):                
           booksheet.write(i, j, col)        
      workbook.save('HR.xls')

if __name__=="__main__":    
  main()

结果展示

拉勾网HR职位信息

自学Python四个月，写爬虫时参考了无数前辈大牛们的博客，如果没有他们的无私共享也就没有自己能运行成功的代码了。So，分享使人快乐。
欢迎各路大神提出建议共同交流，促进编程小白更快成长。O(∩_∩)O谢谢～
——以玩编程为乐的妹子一名

Python爬虫：爬取拉勾网职位信息存入excel
校招进入火热状态，学人力资源管理的我想了解当前全国HR职位情况的相关数据，所以将近期爬虫目标瞄准了拉勾网 [...
拉勾爬虫实战
0 引言一次简单的 Python 爬虫练习：输入目标城市和目标职位，从拉勾网爬取相关的职位列表数据...
Python爬虫-拉勾网职位爬取
感觉好久没写python了哈哈，最近都在忙工作，所以也是没有学习python。刚好凑巧朋友正在找工作，也是java...
Python、Java 薪资最高，C# 垫底：分析什么编程语言最
本文主要用Python爬取拉勾网不同编程语言职位信息，包括Python岗、Java岗、C++岗、PHP岗、C#岗位...
Python爬虫作业 | 爬取拉勾职位信息
主要爬了以下几个字段：岗位名称公司名称要求的工作经验薪资工作地点。感谢罗攀攀和向右奔跑以及朋友wili...
拉勾网前端职位数据分析（Excel，Python工具）
一、使用scrpy爬取拉勾网（厦门地区）前端职位数据数据爬取过程可以参考慕课网教程。使用Excel数据透视表(样...
拉勾网职位信息爬取
分析网页通过浏览器查看网页源代码，未能找到职位信息，因此需要打开F12开发者工具抓包分析职位数据使怎样被加载到网...
Python urllib爬取拉勾网职位信息
为了获取拉勾网的招聘信息，对数据分析岗位的基本信息进行爬取。之所以选择拉勾网作为本项目的数据源，主要是因为相对于其...
拉勾网职位列表爬取
三个小爬虫的最后一个是对拉勾网职位列表的爬取，当然这里没有考虑增量爬取，也没有考虑多线程爬取，仅仅是简单的把职位列...
simple数据分析——拉钩职位（python）
五一之前爬取了拉钩网的职位信息python爬虫——拉钩网职位信息,对与python相关的两个职位进行简单的数据分析...

网友评论

2e81823e8c0f:你好请问，用Python写爬虫的时候要用到那些软件啊？只要装一个Python3就可以了吗？ @阳光依然打在地上 @阳光依然打在地上

2e81823e8c0f:@阳光依然打在地 @阳光依然打在地上谢谢(*°∀°)=3

阳光依然打在地上:@不费力气一无所得我装的是pycharm噢~

2h0n9:我每次爬拉勾都是提示“您操作太频繁，请稍候再试”🙄

阳光依然打在地上:哈，可能是访问太多次了。

TryEnough:ValueError: No JSON object could be decoded，你好，请问有遇到这个问题么？

TryEnough:@__雪夜__ 我找到原因了：是因为网址少了个？问号。

37378d0d9327:人力资源屈才了

阳光依然打在地上:@成都吴彦祖是我啊是的。一般只有做到人力资源总监级别待遇才能上的去，中国现在的小公司大都把人力资源作为行政部门看待。

4345ef13dbaa:厉害了~~

阳光依然打在地上:@无脑山里人

以后继续努力

2e81823e8c0f:你好请问，用Python写爬虫的时候要用到那些软件啊？只要装一个Python3就可以了吗？ @阳光依然打在地上 @阳光依然打在地上
2e81823e8c0f:@阳光依然打在地 @阳光依然打在地上谢谢(*°∀°)=3
阳光依然打在地上:@不费力气一无所得我装的是pycharm噢~
2h0n9:我每次爬拉勾都是提示“您操作太频繁，请稍候再试”🙄
阳光依然打在地上:哈，可能是访问太多次了。
TryEnough:ValueError: No JSON object could be decoded，你好，请问有遇到这个问题么？
TryEnough:@__雪夜__ 我找到原因了：是因为网址少了个？问号。
37378d0d9327:人力资源屈才了
阳光依然打在地上:@成都吴彦祖是我啊是的。一般只有做到人力资源总监级别待遇才能上的去，中国现在的小公司大都把人力资源作为行政部门看待。
4345ef13dbaa:厉害了~~
阳光依然打在地上:@无脑山里人以后继续努力

Python爬虫：爬取拉勾网职位信息存入excel

前期准备

实现翻页

源代码

结果展示

相关文章

Python爬虫：爬取拉勾网职位信息存入excel

拉勾爬虫实战

Python爬虫-拉勾网职位爬取

Python、Java 薪资最高，C# 垫底：分析什么编程语言最

Python爬虫作业 | 爬取拉勾职位信息

拉勾网前端职位数据分析（Excel，Python工具）

拉勾网职位信息爬取

Python urllib爬取拉勾网职位信息

拉勾网职位列表爬取

simple数据分析——拉钩职位（python）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

菜鸟学Python

拉钩-爬虫-Python

菜鸟

Pythoner集中营

python爬虫