小白零基础也会的爬虫，就是有个反爬！手把手教你破解反爬！

作者: 919b0c54458f | 来源:发表于2018-07-28 10:35 被阅读0次

小白零基础也会的爬虫，就是有个反爬！手把手教你破解反爬！
小白零基础也会的爬虫，就是有个反爬！手把手教你破解反爬！
反反爬虫之js加密参数获取
反爬虫到底是怎么一回事？
【逆向】某音无水印视频如何下载？我教你！
抖音爬虫教程，python爬虫采集反爬策略
爬虫、反爬虫与突破反爬虫
Python爬虫——学习字体反爬获取某招聘信息
自学Python爬虫：常见的反爬与反爬处理
封我IP不存在的！神级程序员教你写个维护IP的代理池！ip不是重

需要爬取的新闻网站为http://www.shxz.gov.cn/sites/CSMHXZMH/ViewList2_pg.ashx?ctgId=fe188544-e1fe-4230-b754-40e8d70ae432&leftBarId=08f6f7e1-badb-49fd-8da9-009f8dcc14a0

分析

思路很简单：

分析网站-->找出每一页的网址规律-->分析每一页包含的新闻链接-->循环批量下载

看起来是不是很简单呀，现在我开始分析每一页网址的页数规律

进群：125240963 即可获取数十套PDF哦！

这是点击跳转的链接

跳转之后的网址为

http://www.shxz.gov.cn/sites/CSMHXZMH/ViewCon2_pg.ashx?ctgId=fe188544-e1fe-4230-b754-40e8d70ae432&infId=ce846a98-ed2c-4181-861d-3b6c000b9ba9&leftBarId=08f6f7e1-badb-49fd-8da9-009f8dcc14a0

只需要找出每个页面的12个ViewCon2_pg.ash········这段代码，然后在前面加上http://www.shxz.gov.cn/sites/CSMHXZMH/ 就是每个新闻的网址，所以我只需要筛选出每页的12个这段代码即可

观察源代码，选择正则表达式进行筛选

现在一切正常，然后我打开爬取到的文件发现没有内容，我检查代码是没问题的，然后我去检查其中的一个新闻页面源代码，发现数据是经过JavaScript处理的，还真是有反爬的呀。很无奈，再次分析吧

按F12，然后再按F5刷新页面，查看Network

Content.ashx?infId=908d112a-2520-4c1b-a7f8-9032fed…32&leftBarId=08f6f7e1-badb-49fd-8da9-009f8dcc14a0

点击到这一行时，点击Preview发现就是我们需要的文章内容，然后右键这一行，Copy-->Copy link address，分析这个真实的网址，然后可以打开多几个不同页数的网址进行分析

JavaScript加载的网址

http://www.shxz.gov.cn/sites/Iframe_ZZTY_cxs/dyn/Content.ashx?infId=908d112a-2520-4c1b-a7f8-9032fedbfe5c&ctgId=fe188544-e1fe-4230-b754-40e8d70ae432&leftBarId=08f6f7e1-badb-49fd-8da9-009f8dcc14a0

原页面的网址

http://www.shxz.gov.cn/sites/CSMHXZMH/ViewCon2_pg.ashx?ctgId=fe188544-e1fe-4230-b754-40e8d70ae432&infId=908d112a-2520-4c1b-a7f8-9032fedbfe5c&leftBarId=08f6f7e1-badb-49fd-8da9-009f8dcc14a0

这是第一次处理之后的有效代码

ViewCon2_pg.ashx?ctgId=fe188544-e1fe-4230-b754-40e8d70ae432&infId=908d112a-2520-4c1b-a7f8-9032fedbfe5c&leftBarId=08f6f7e1-badb-49fd-8da9-009f8dcc14a0

然后观察最后的真实网址和原来的对比，发现有效部分是

infId=908d112a-2520-4c1b-a7f8-9032fedbfe5c

这个可以决定每个新闻的链接，其他部分是不变的

realurl= "http://www.shxz.gov.cn/sites/Iframe_ZZTY_cxs/dyn/Content.ashx?"+str(allurl[j])+"&ctgId=fe188544-e1fe-4230-b754-40e8d70ae432&leftBarId=08f6f7e1-badb-49fd-8da9-009f8dcc14a0"

所以一开始筛选出这部分决定行的代码即可，然后我发现这个正则有点难写，所以我直接用for循环遍历去重

最终代码如下