美文网首页我爱编程
Python爬虫实战-抓取Boss直聘招聘信息

Python爬虫实战-抓取Boss直聘招聘信息

作者: 加来依蓝 | 来源:发表于2018-04-18 14:50 被阅读1173次

    爬取过程:

    1、获取数据:Requests

    2、解析数据:xpath

    3、保存数据:pandas


    在boss中查询岗位信息采用的是get的方式进行请求,页面岗位数据采用非Js的方式进行加载,但是页面元素经常变化。需要时常调整xpath读取页面元素代码。本次爬取用于对爬取时不同岗位的薪资状况的评估,不需要爬取岗位的具体要求。

    步骤一:分析网页

    爬取boss招聘信息需要先登录,通过分析,爬取时需要的信息如下:

    url ='https://www.zhipin.com/c101280600/'

    请求首部:

    headers = {

    'accept':'application/json, text/javascript, */*; q=0.01',

    'accept-encoding':'gzip, deflate, br',

    'accept-language':'zh-CN,zh;q=0.8',

    'cookie':'……', # 需要填写

    'user-agent':'……',# 需要填写

    'x-requested-with':'XMLHttpRequest',

    }

    请求方法:get

    需要爬取的页面分析:

    二、代码实现

    核心代码如下图所示,不过别忘了添加headers 和导入requests、pandas、time、etree等Python附加模块。

    # 调用函数代码

    if __name__ =='__main__':

        get_info(2)# 爬取两页数据

    相关文章

      网友评论

        本文标题:Python爬虫实战-抓取Boss直聘招聘信息

        本文链接:https://www.haomeiwen.com/subject/lsvvkftx.html