美文网首页
爬虫案例(五)

爬虫案例(五)

作者: 灬断言灬 | 来源:发表于2017-08-15 15:17 被阅读0次

    1 http://www.gree.com.cn/pczwb/xwzx/index.shtml

    1.1 特点分析

            使用的是ajax请求来进行的局部刷新,使用json来进行处理。使用fiddler构造请求一直不成功,服务器有反爬虫机制,增加UA也无法成功,防爬虫做的有些严格。

    1.2 解决方案

            打开fiddler,正常浏览页面,点击下一页按钮,在fiddler中查看此次请求,然后点开raw选项卡,看到完整的post请求,全选拷贝,在compose中构造此请求,发现请求成功。

    1.3 代码位置

            http://demo.pyspider.org/debug/gree_tk

    1.4 值得注意的思路

            这个算是处理比较久的,在实际处理过程中,构造的请求一直不能成功,然后想到直接使用成功的请求来伪造,于是发现了Raw这个选项卡。

    Raw选项卡查看请求详情

            之后一个一个参数进行测试,查看那些参数对这个请求的正常与否有直接关系,得到下图

    测试必须选项

            其中的Accept、Origin、User-Agent、Referer、Accept-Encoding是必须的参数。可以看到未必只有UA会对爬取产生影响,其他参数有些时候价值也很大。

            最后就是关于fetch_type='js'这个参数,对于需要运行js之后才形成的页面很有效,对于请求json这种则千万不能加。有这种想法的原因是对这个不理解,官方文档中也没有详细的解释。

    相关文章

      网友评论

          本文标题:爬虫案例(五)

          本文链接:https://www.haomeiwen.com/subject/vwxhrxtx.html