爬虫破解：解决CSRF-Token反爬问题 - 上海市发展和改革

作者: 吉祥鸟hu | 来源:发表于2023-10-08 10:46 被阅读0次

爬虫、反爬虫与突破反爬虫
16.常见的反爬手段和解决思路
网易互娱：2019秋招 Java开发视频面试
反爬虫到底是怎么一回事？
油猴爬虫方案
Scrapy爬虫教程五爬虫部署
Scrapy爬虫教程一 Windows下安装Scrapy的方式和
Scrapy爬虫教程二浅析最烦人的反爬虫手段
Scrapy爬虫教程三详细的Python Scrapy模拟登录
Python WordCloud对电视剧<<猎场&g

标题：爬虫破解：解决CSRF-Token反爬问题 - 上海市发展和改革委员会

网址：https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home

MD5加密：ca7f5c978b1809d15a4b228198814253

需求文档

采集数据如下所示：

数据示例

解决反爬思路

这里只提供解决思路，解决反爬，有测试代码样例，没有完整的爬虫代码

尝试抓包

首先，我们可以尝试抓包分析网站的反爬机制。

进入网站，点击"项目建议书审批"，然后点击下一页。

抓包示例1

找到需要的请求，发现它是一个POST请求。

抓包示例2

模拟POST请求

接下来，我们可以尝试模拟这个POST请求来获取数据。以下是一个示例Python代码：

import requests

cookies = {
    'Path': '/',
    'JSESSIONID': 'BE1ABA861B2AA525CA8E826173849B83',
    'zh_choose': 's',
    '_pk_testcookie.223.75aa': '1',
    '_pk_ses.223.75aa': '1',
    'pageSize': '10',
    'pageNo': '1',
    '_pk_id.223.75aa': 'c4732de64ef93638.1696815438.1.1696817644.1696815438.',
}

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Origin': 'https://fgw.sh.gov.cn',
    'Referer': 'https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/list?projectType=%E9%A1%B9%E7%9B%AE%E5%BB%BA%E8%AE%AE%E4%B9%A6%E5%AE%A1%E6%89%B9&csrfToken=646702af-2c3f-4699-8bdf-bb8673d19f24',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}

data = {
  'pageNo': '2',
  'pageSize': '10',
  'csrfToken': '11e6ee1f-df4b-404d-8fa2-d2dcf67835f3',
  'projectType': '\u9879\u76EE\u5EFA\u8BAE\u4E66\u5BA1\u6279',
  'projectName': '',
  'projectCode': '',
  'approvalNumber': '',
  'searchTime': ''
}

response = requests.post('https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchList', headers=headers, cookies=cookies, data=data)

print(response.text)

分析反爬机制

然而，我们得到的响应状态码是550，且返回数据显示系统维护中，这表明服务器可能已经识别了我们的爬虫请求并进行了反爬处理。

绕过反爬

接下来，我们需要思考如何绕过这个反爬机制。这可能需要进一步的分析和试验，以确定服务器的反爬策略，并采取相应的措施来避免被屏蔽。

我们看下他的表单参数

可以看到，只有4个有值

我们在向下翻一页：

可以看到，有2个参数变化了，分别是 pageNo 和 csrfToken

pageNo 是页数

这里我们可以猜测 csrfToken 就可能是变动的

我们搜索下 csrfToken ，需要找到 csrfToken 从哪里来的

这里我们可以看到，在我们需要的请求源码中，有 csrfToken
但是这个请求源码中的csrfToken肯定不是我们要的， csrfToken肯定在之前就有了
我们返回前一个url看下

在https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home页面中，我们搜下 csrfToken ，可以看到请求中，有我们需要的 csrfToken

这样我们可以猜测，csrfToken 是从前一个请求中返回过来的

然后在https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchListpost请求参数中使用

我们来测试一下

构建一下测试样例：

import re
import requests
ss = requests.Session()

headers = {
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}

response = ss.get('https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home', headers=headers)
print(response.text[:500])
print(response)
zz = re.search(r'<input\s*type="hidden"\s*name="csrfToken"\s*value="([^"]*?)">',response.text)
print(zz.group(1))
cookies = {
    'Path': '/',
    'JSESSIONID': 'BF37359F2295BADD102E4320059265B9',
    'zh_choose': 's',
    '_pk_testcookie.223.75aa': '1',
    '_pk_ref.223.75aa': '%5B%22%22%2C%22%22%2C1696754775%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D',
    '_pk_ses.223.75aa': '1',
    'pageNo': '1',
    '_pk_id.223.75aa': 'c70deb457c37fd61.1696754775.1.1696754862.1696754775.',
}

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Origin': 'https://fgw.sh.gov.cn',
    'Referer': 'https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/list?projectType=%E8%8A%82%E8%83%BD%E5%AE%A1%E6%9F%A5&csrfToken=ea2a2a35-0c83-470e-9771-f54379508cae',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}

data = {
  'pageNo': '2',
  'pageSize': '10',
  'csrfToken': zz.group(1),
  'projectType': '\u8282\u80FD\u5BA1\u67E5',
  'projectName': '',
  'projectCode': '',
  'approvalNumber': '',
  'searchTime': ''
}

response = ss.post('https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchList', headers=headers, cookies=cookies, data=data)

print(response.text[:10001])
print(response)

这里我先请求了https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home，然后re提取源码中的csrfToken

再请求https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchList，并把 csrfToken 放到post参数中

看下返回结果：