美文网首页Python
Python3简单爬虫

Python3简单爬虫

作者: jadegg | 来源:发表于2017-06-08 19:15 被阅读0次

    先从一个最简单的页面开始爬起


        from urllib import request
        res = request.Request("http://www.baidu.com")  #构建请求
        res = request.urlopen(res) #获取服务器响应
        print(res.read().decode('utf-8')) #读取设置编码  输出到控制台
    

    运行


    但是往往裸奔版对一些网站是爬不了的,这时就需要对爬虫进行一些伪装了。伪装浏览器或者加入延时。
    改成如下代码

        from urllib import request
        import ssl
    
        res = request.Request("http://www.baidu.com")
    
        res.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko)   Chrome/58.0.3029.81 Safari/537.36")
      context = ssl._create_unverified_context()
        res = request.urlopen(res,context=context)
        print(res.read().decode('utf-8'))
    

    这样就成功完成伪装了

    相关文章

      网友评论

        本文标题:Python3简单爬虫

        本文链接:https://www.haomeiwen.com/subject/yfmtqxtx.html