美文网首页
爬虫破解:解决CSRF-Token反爬问题 - 上海市发展和改革

爬虫破解:解决CSRF-Token反爬问题 - 上海市发展和改革

作者: 吉祥鸟hu | 来源:发表于2023-10-08 10:46 被阅读0次

    标题:爬虫破解:解决CSRF-Token反爬问题 - 上海市发展和改革委员会

    网址:https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home

    MD5加密:ca7f5c978b1809d15a4b228198814253

    需求文档

    采集数据如下所示:

    数据示例

    解决反爬思路

    这里只提供解决思路,解决反爬,有测试代码样例,没有完整的爬虫代码

    尝试抓包

    首先,我们可以尝试抓包分析网站的反爬机制。

    1. 进入网站,点击"项目建议书审批",然后点击下一页。
    抓包示例1
    1. 找到需要的请求,发现它是一个POST请求。
    抓包示例2

    模拟POST请求

    接下来,我们可以尝试模拟这个POST请求来获取数据。以下是一个示例Python代码:

    import requests
    
    cookies = {
        'Path': '/',
        'JSESSIONID': 'BE1ABA861B2AA525CA8E826173849B83',
        'zh_choose': 's',
        '_pk_testcookie.223.75aa': '1',
        '_pk_ses.223.75aa': '1',
        'pageSize': '10',
        'pageNo': '1',
        '_pk_id.223.75aa': 'c4732de64ef93638.1696815438.1.1696817644.1696815438.',
    }
    
    headers = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Cache-Control': 'max-age=0',
        'Connection': 'keep-alive',
        'Content-Type': 'application/x-www-form-urlencoded',
        'Origin': 'https://fgw.sh.gov.cn',
        'Referer': 'https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/list?projectType=%E9%A1%B9%E7%9B%AE%E5%BB%BA%E8%AE%AE%E4%B9%A6%E5%AE%A1%E6%89%B9&csrfToken=646702af-2c3f-4699-8bdf-bb8673d19f24',
        'Sec-Fetch-Dest': 'document',
        'Sec-Fetch-Mode': 'navigate',
        'Sec-Fetch-Site': 'same-origin',
        'Sec-Fetch-User': '?1',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
        'sec-ch-ua': '"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
        'sec-ch-ua-mobile': '?0',
        'sec-ch-ua-platform': '"Windows"',
    }
    
    data = {
      'pageNo': '2',
      'pageSize': '10',
      'csrfToken': '11e6ee1f-df4b-404d-8fa2-d2dcf67835f3',
      'projectType': '\u9879\u76EE\u5EFA\u8BAE\u4E66\u5BA1\u6279',
      'projectName': '',
      'projectCode': '',
      'approvalNumber': '',
      'searchTime': ''
    }
    
    response = requests.post('https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchList', headers=headers, cookies=cookies, data=data)
    
    print(response.text)
    

    分析反爬机制

    然而,我们得到的响应状态码是550,且返回数据显示系统维护中,这表明服务器可能已经识别了我们的爬虫请求并进行了反爬处理。

    绕过反爬

    接下来,我们需要思考如何绕过这个反爬机制。这可能需要进一步的分析和试验,以确定服务器的反爬策略,并采取相应的措施来避免被屏蔽。

    我们看下他的表单参数

    可以看到,只有4个有值

    我们在向下翻一页:


    可以看到,有2个参数变化了,分别是 pageNocsrfToken

    pageNo 是页数

    这里我们可以猜测 csrfToken 就可能是变动的

    我们搜索下 csrfToken ,需要找到 csrfToken 从哪里来的


    这里我们可以看到,在我们需要的请求源码中,有 csrfToken
    但是 这个请求源码中的csrfToken肯定不是我们要的, csrfToken肯定在之前就有了
    我们返回前一个url看下

    https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home页面中,我们搜下 csrfToken ,可以看到请求中,有我们需要的 csrfToken

    这样我们可以猜测,csrfToken 是从前一个请求中返回过来的

    然后在https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchListpost请求参数中使用

    我们来测试一下

    构建一下测试样例:

    import re
    import requests
    ss = requests.Session()
    
    headers = {
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
        'sec-ch-ua': '"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
        'sec-ch-ua-mobile': '?0',
        'sec-ch-ua-platform': '"Windows"',
    }
    
    response = ss.get('https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home', headers=headers)
    print(response.text[:500])
    print(response)
    zz = re.search(r'<input\s*type="hidden"\s*name="csrfToken"\s*value="([^"]*?)">',response.text)
    print(zz.group(1))
    cookies = {
        'Path': '/',
        'JSESSIONID': 'BF37359F2295BADD102E4320059265B9',
        'zh_choose': 's',
        '_pk_testcookie.223.75aa': '1',
        '_pk_ref.223.75aa': '%5B%22%22%2C%22%22%2C1696754775%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D',
        '_pk_ses.223.75aa': '1',
        'pageNo': '1',
        '_pk_id.223.75aa': 'c70deb457c37fd61.1696754775.1.1696754862.1696754775.',
    }
    
    headers = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
        'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
        'Cache-Control': 'max-age=0',
        'Connection': 'keep-alive',
        'Content-Type': 'application/x-www-form-urlencoded',
        'Origin': 'https://fgw.sh.gov.cn',
        'Referer': 'https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/list?projectType=%E8%8A%82%E8%83%BD%E5%AE%A1%E6%9F%A5&csrfToken=ea2a2a35-0c83-470e-9771-f54379508cae',
        'Sec-Fetch-Dest': 'document',
        'Sec-Fetch-Mode': 'navigate',
        'Sec-Fetch-Site': 'same-origin',
        'Sec-Fetch-User': '?1',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
        'sec-ch-ua': '"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
        'sec-ch-ua-mobile': '?0',
        'sec-ch-ua-platform': '"Windows"',
    }
    
    data = {
      'pageNo': '2',
      'pageSize': '10',
      'csrfToken': zz.group(1),
      'projectType': '\u8282\u80FD\u5BA1\u67E5',
      'projectName': '',
      'projectCode': '',
      'approvalNumber': '',
      'searchTime': ''
    }
    
    response = ss.post('https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchList', headers=headers, cookies=cookies, data=data)
    
    print(response.text[:10001])
    print(response)
    
    

    这里我先请求了https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home,然后re提取源码中的csrfToken

    再请求https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchList,并把 csrfToken 放到post参数中

    看下返回结果:

    返回200,数据也是正常了

    我们成功解决这个CSRF-Token反爬问题!!!🕵️♂️📊

    本文由mdnice多平台发布

    相关文章

      网友评论

          本文标题:爬虫破解:解决CSRF-Token反爬问题 - 上海市发展和改革

          本文链接:https://www.haomeiwen.com/subject/yvcbbdtx.html