美文网首页呆鸟的Python数据分析
资料整理:一篇文章教会你urllib库的高级用法

资料整理:一篇文章教会你urllib库的高级用法

作者: 松鼠爱吃饼干 | 来源:发表于2020-04-21 16:57 被阅读0次

    1.1 设置请求头

    其中User-Agent代表用的哪个请求的浏览器

    代码如下:

    对付防盗链,服务器会识别headers中的referer是不是它自己,如果不是,有的服务器不会响应,所以我们还可以在headers中加入referer

    代码如下:

    提示

    在此可以使用多个User_Agent:然后随即选择

    对于随机UserAgent,PYthon有提供一个模块库fake-useragent,安装如下:

     pip3 install fake-useragent
    

    1.2 设置代理Proxy

    假如一个网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,网站君都不知道是谁在捣鬼了,这酸爽!

    分类:

    透明代理:目标网站知道你使用了代理并且知道你的源IP地址,这种代理显然不符合我们这里使用代理的初衷

    匿名代理:匿名程度比较低,也就是网站知道你使用了代理,但是并不知道你的源IP地址

    高匿代理:这是最保险的方式,目标网站既不知道你使用的代理更不知道你的源IP

    代码如下:

    2 使用DebugLog

    可以通过下面的方法把 Debug Log 打开,这样收发包的内容就会在屏幕上打印出来,方便调试,这个也不太常用,仅提一下

    相关文章

      网友评论

        本文标题:资料整理:一篇文章教会你urllib库的高级用法

        本文链接:https://www.haomeiwen.com/subject/afkpihtx.html