美文网首页程序员
拉勾网爬取招聘数据——保姆级教学(新手向)

拉勾网爬取招聘数据——保姆级教学(新手向)

作者: Star英 | 来源:发表于2020-06-25 17:15 被阅读0次

    前言:

    在进行这篇文章之前,首先你需要知道一些python的基础知识,以及网页的基础知识。

    该项目是,应对AJAX动态加载,并应用表单的交互技术,爬取拉勾网招聘信息,解析网页返回的json数据,存储为DataFrame格式然后导出为csv文件。

    网上很多关于拉勾网的教程,都是具有时效性的,拉勾网的网址格式页不断在变。

    本文给出爬取的具体操作,不对原理做过多解释,有效时间——2020.6.25.

    环境:Python3、jupyter notebook、chrome浏览器

    主要模块:requests、pandas、json、time、csv

    分析网页

    打开拉勾网后,在搜索栏中输入关键字“数据分析”,用来查找“数据分析”相关的职位。

    在搜索结果的页面中,我们按照以下的步骤:

    • 右键检查

    • 打开审查元素后默认打开的是Elements,切换到Network标签,并且调整到XHR。

    • 刷新一下页面,将会得到多个反馈连接

    页面分析

    第一步:获取真实URL

    点击第一个反馈连接,在Request Headers中我们找到原始的URL连接。(PS:拉勾网发送POST请求,因为当我们点击下一页的时候,浏览器地址栏的信息没有发生任何的变化)

    在这个页面下还有一个请求JSON的URL,是在浏览器地址栏看不到的,但是却很重要。


    第二步:请求头信息和表单信息的获取(用来伪装爬虫)

    继续深究获取Request Headers中的'origin','accept','user-agent','referer'。

    headers头

    在Form Data中可以看到POST表单提交的信息。这很重要。

    Form Data表单

    第三步:分析获取的JSON数据。

    POST请求返回的JSON格式数据,可以在Preview中查看。

    Preview 查看JSON

    在content->positionResult->result路径中,后面将会用json库对其解码。

    得到上述信息后,可以开始爬取过程了。

    导入准备使用的包

    import requests
    import json
    import time
    import pandas as pd
    import csv
    

    构造请求头

    headers = {
        'origin': 'https://www.lagou.com',
        'accept': 'application/json, text/javascript, */*; q=0.01',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
        ,'referer': 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput='
    }
    

    构造表单

    params = {
        "first": "true",
        "pn": 1,
        "kd": "数据分析"
    }
    

    真实的URL

    # 原始网页的URL
    url_start = 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput='
    #请求JSON数据的URL
    url = "https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"
    

    cookies处理

    在踩坑第一次包装headers头伪装爬虫,并没有用。第二次踩坑直接登陆账号然后复制cookie加入到headers,发现,虽然可以,但是时效性很短,最多爬取到第十页,于是自动获取cookie吧。代码如下:

    # 获取cookies值
    def get_cookie():
        # 原始网页的URL,即url_start
        url = 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput='
        s = requests.Session()
        s.get(url, headers=headers, timeout=3)  # 请求首页获取cookies
        cookie = s.cookies  # 为此次获取的cookies
        return cookie
    

    页数处理

    返回的JSON中有数据总条数。


    totalCount查看总条数

    拉勾网每页有15条岗位信息,并默认只有30页,那么我们将返回的信息总数除以15看是否小于30,若小于,总页数取对应结果,不然总页数就等于30,代码如下。

    # 定义获取页数的函数
    def get_page(url, params):
        html = requests.post(url, data=params, headers=headers, cookies=get_cookie(), timeout=5)
        # 将网页的Html文件加载为json文件
        json_data = json.loads(html.text)
        # 解析json文件,后跟中括号为解析的路径
        total_Count = json_data['content']['positionResult']['totalCount']
        page_number = int(total_Count/15) if int(total_Count/15) < 30 else 30
        # 调用get_info函数,传入url和页数
        get_info(url, page_number)
    

    获取信息并保存到csv文件中

    # 定义获取招聘信息函数
    def get_info(url, page):
        for pn in range(1, page+1):
            # post请求参数
            params = {
                "first": "true",
                "pn": str(pn),
                "kd": "数据分析"
            }
            # 获取信息 并捕获异常
            try:
                html = requests.post(url, data=params, headers=headers, cookies=get_cookie(), timeout=5)
                print(url, html.status_code)
                # 将网页的Html文件加载为json文件
                json_data = json.loads(html.text)
                # 解析json文件,后跟中括号为解析的路径
                results = json_data['content']['positionResult']['result']
                df = pd.DataFrame(results)
                if pn == 1:
                    total_df = df
                else:
                    total_df = pd.concat([total_df,df],axis=0)  
                # 睡眠2秒
                time.sleep(2)
            except requests.exceptions.ConnectionError:
                print("requests.exceptions.ConnectionError")
                pass
            total_df.to_csv('招聘信息.csv', sep = ',', header = True, index = False)
    

    至此,整个代码部分就大功告成了。
    来实践一下运行效果。





    运行结果图
    csv文件

    相关文章

      网友评论

        本文标题:拉勾网爬取招聘数据——保姆级教学(新手向)

        本文链接:https://www.haomeiwen.com/subject/onwsfktx.html