标题:爬虫破解:解决CSRF-Token反爬问题 - 上海市发展和改革委员会
网址:https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home
MD5加密:ca7f5c978b1809d15a4b228198814253
需求文档
采集数据如下所示:
数据示例解决反爬思路
这里只提供解决思路,解决反爬,有测试代码样例,没有完整的爬虫代码
尝试抓包
首先,我们可以尝试抓包分析网站的反爬机制。
- 进入网站,点击"项目建议书审批",然后点击下一页。
- 找到需要的请求,发现它是一个POST请求。
模拟POST请求
接下来,我们可以尝试模拟这个POST请求来获取数据。以下是一个示例Python代码:
import requests
cookies = {
'Path': '/',
'JSESSIONID': 'BE1ABA861B2AA525CA8E826173849B83',
'zh_choose': 's',
'_pk_testcookie.223.75aa': '1',
'_pk_ses.223.75aa': '1',
'pageSize': '10',
'pageNo': '1',
'_pk_id.223.75aa': 'c4732de64ef93638.1696815438.1.1696817644.1696815438.',
}
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Cache-Control': 'max-age=0',
'Connection': 'keep-alive',
'Content-Type': 'application/x-www-form-urlencoded',
'Origin': 'https://fgw.sh.gov.cn',
'Referer': 'https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/list?projectType=%E9%A1%B9%E7%9B%AE%E5%BB%BA%E8%AE%AE%E4%B9%A6%E5%AE%A1%E6%89%B9&csrfToken=646702af-2c3f-4699-8bdf-bb8673d19f24',
'Sec-Fetch-Dest': 'document',
'Sec-Fetch-Mode': 'navigate',
'Sec-Fetch-Site': 'same-origin',
'Sec-Fetch-User': '?1',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
'sec-ch-ua': '"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
'sec-ch-ua-mobile': '?0',
'sec-ch-ua-platform': '"Windows"',
}
data = {
'pageNo': '2',
'pageSize': '10',
'csrfToken': '11e6ee1f-df4b-404d-8fa2-d2dcf67835f3',
'projectType': '\u9879\u76EE\u5EFA\u8BAE\u4E66\u5BA1\u6279',
'projectName': '',
'projectCode': '',
'approvalNumber': '',
'searchTime': ''
}
response = requests.post('https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchList', headers=headers, cookies=cookies, data=data)
print(response.text)
分析反爬机制
然而,我们得到的响应状态码是550,且返回数据显示系统维护中,这表明服务器可能已经识别了我们的爬虫请求并进行了反爬处理。
绕过反爬
接下来,我们需要思考如何绕过这个反爬机制。这可能需要进一步的分析和试验,以确定服务器的反爬策略,并采取相应的措施来避免被屏蔽。
我们看下他的表单参数
可以看到,只有4个有值
我们在向下翻一页:
可以看到,有2个参数变化了,分别是 pageNo 和 csrfToken
pageNo 是页数
这里我们可以猜测 csrfToken 就可能是变动的
我们搜索下 csrfToken ,需要找到 csrfToken 从哪里来的
这里我们可以看到,在我们需要的请求源码中,有 csrfToken
但是 这个请求源码中的csrfToken肯定不是我们要的, csrfToken肯定在之前就有了
我们返回前一个url看下
在https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home
页面中,我们搜下 csrfToken ,可以看到请求中,有我们需要的 csrfToken
这样我们可以猜测,csrfToken 是从前一个请求中返回过来的
然后在https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchList
post请求参数中使用
我们来测试一下
构建一下测试样例:
import re
import requests
ss = requests.Session()
headers = {
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
'sec-ch-ua': '"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
'sec-ch-ua-mobile': '?0',
'sec-ch-ua-platform': '"Windows"',
}
response = ss.get('https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home', headers=headers)
print(response.text[:500])
print(response)
zz = re.search(r'<input\s*type="hidden"\s*name="csrfToken"\s*value="([^"]*?)">',response.text)
print(zz.group(1))
cookies = {
'Path': '/',
'JSESSIONID': 'BF37359F2295BADD102E4320059265B9',
'zh_choose': 's',
'_pk_testcookie.223.75aa': '1',
'_pk_ref.223.75aa': '%5B%22%22%2C%22%22%2C1696754775%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D',
'_pk_ses.223.75aa': '1',
'pageNo': '1',
'_pk_id.223.75aa': 'c70deb457c37fd61.1696754775.1.1696754862.1696754775.',
}
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
'Cache-Control': 'max-age=0',
'Connection': 'keep-alive',
'Content-Type': 'application/x-www-form-urlencoded',
'Origin': 'https://fgw.sh.gov.cn',
'Referer': 'https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/list?projectType=%E8%8A%82%E8%83%BD%E5%AE%A1%E6%9F%A5&csrfToken=ea2a2a35-0c83-470e-9771-f54379508cae',
'Sec-Fetch-Dest': 'document',
'Sec-Fetch-Mode': 'navigate',
'Sec-Fetch-Site': 'same-origin',
'Sec-Fetch-User': '?1',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
'sec-ch-ua': '"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
'sec-ch-ua-mobile': '?0',
'sec-ch-ua-platform': '"Windows"',
}
data = {
'pageNo': '2',
'pageSize': '10',
'csrfToken': zz.group(1),
'projectType': '\u8282\u80FD\u5BA1\u67E5',
'projectName': '',
'projectCode': '',
'approvalNumber': '',
'searchTime': ''
}
response = ss.post('https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchList', headers=headers, cookies=cookies, data=data)
print(response.text[:10001])
print(response)
这里我先请求了https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home
,然后re提取源码中的csrfToken
再请求https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchList
,并把 csrfToken 放到post参数中
看下返回结果:
返回200,数据也是正常了
我们成功解决这个CSRF-Token反爬问题!!!🕵️♂️📊
本文由mdnice多平台发布
网友评论