Python网络爬虫之urllib2的使用细节与抓站技巧

作者: keitwo | 来源:发表于2018-01-14 15:28 被阅读14次

Python网络爬虫之urllib2的使用细节与抓站技巧
[转载]网络爬虫（五）：urllib2的使用细节与抓站技巧
jq用python爬虫抓站的一些技巧总结
使用python爬虫抓站的一些技巧总结：进阶篇！
requests 获取淘宝搜索页面信息
python2.7x windows版本爬虫小白入门
简单网络爬虫
tenliu的爬虫-抓包分析
tenliu的爬虫-python的urllib库
tenliu的爬虫-python库urllib、urllib2、

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求,这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现

一、伪装成浏览器访问+表单data的处理

示例1

二、获取访问Cookie的值

示例2

三、Proxy的设置及Timeout 设置

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，那么可以使用如下代理操作

示例3

四、使用 urllib2时打开Debug Log模式

debug Log 的打开，这样收发包的内容就会在屏幕上打印出来，方便调试，有时可以省去抓包的工作，这样就可以看到传输的数据包内容了。

示例4

五、对付"反盗链"

某些站点有所谓的反盗链设置，其实说穿了很简单，就是检查你发送请求的header里面，referer站点是不是他自己，所以我们只需要像把headers的referer改成该网站即可，以cnbeta为例：headers是一个dict数据结构，你可以放入任何想要的header，来做一些伪装。例如，有些网站喜欢读取header中的X-Forwarded-For来看看人家的真实IP，可以直接把X-Forwarde-For改了