反爬虫问题

作者: Jalynn葸 | 来源:发表于2018-11-03 13:12 被阅读20次
    反爬虫的方式

    1、不返回网页,如不返回内容和延迟网页返回时间
    2、返回数据非目标网页,如返回错误页、返回空白页和爬取多页时,均返回同一页
    3、增加获取数据的难度,如登陆才可查看和登陆时设置验证码

    如何反反爬虫

    1、修改请求头

    import requests
    r = requests.get('http://www.santostang.com')
    print(r.request.headers)
    

    获得的结果放到爬虫脚本的请求头headers中。
    2、修改爬虫的间隔时间
    爬虫运行的太过密集,设置一个时间间隔

    import time
    t1 = time.time()
    time.sleep(2)
    t2 =time.time()
    total_time= t2-t1
    print(total_time)
    

    3、使用代理
    代理是一种特殊的网络服务,允许一个网络终端,通过这个服务与另一个网络终端进行非直接的链接。
    我们可以维护一个自己的IP池,从而让爬虫程序隐藏自己的真实IP。但是代理IP池维护起来很麻烦,而且十分不稳定。

    相关文章

      网友评论

        本文标题:反爬虫问题

        本文链接:https://www.haomeiwen.com/subject/ywzxoftx.html