爬虫

作者: 秦琴er | 来源:发表于2018-06-20 10:17 被阅读0次

    在刚开始接触爬虫时候,显示接触的是urllib2

    这个应该在爬虫里面算是最基础的一种爬取网站的方法

    导入模块方法:pip install urllib2

    代码如下:

    eg1:一个简单的爬取网站,但很容易被发现

    #start_url是网址链接,headers是伪装浏览器代理,这里代表发送请求

    request = urllib2.Request(start_url,headers)

    #得到的响应

    response = urllib2.urlopen()

    eg2:反爬虫机制很容易发现,然后封ip

    #刚开始第一步一样

    request = urllib2.Request(start_url,headers)

    #设置代理IP

    proxy_bypass = urllib2.proxy_bypass({"":""})

    #代理访问

    build_opener = urllib2.build_opener()

    #响应

    response = build_opener.open()

    这是一种非常容易和简单上手的,但只适合一个爬取小量数据在刚开始接触爬虫时候,显示接触的是urllib2

    这个应该在爬虫里面算是最基础的一种爬取网站的方法

    导入模块方法:pip install urllib2

    代码如下:

    eg1:一个简单的爬取网站,但很容易被发现

    #start_url是网址链接,headers是伪装浏览器代理,这里代表发送请求

    request = urllib2.Request(start_url,headers)

    #得到的响应

    response = urllib2.urlopen()

    eg2:反爬虫机制很容易发现,然后封ip

    #刚开始第一步一样

    request = urllib2.Request(start_url,headers)

    #设置代理IP

    proxy_bypass = urllib2.proxy_bypass({"":""})

    #代理访问

    build_opener = urllib2.build_opener()

    #响应

    response = build_opener.open()

    这是一种非常容易和简单上手的,但只适合一个爬取小量数据

    这个和上一个urllib2一样,也是简单上手的爬虫模块,不过通常这个和lxml里面的etree一起来使用,获取的值可以用浏览器xpath或者正则来取得自己想要的

    #唯一的区别是strat_url和headers,proxies都是写在一起的,这个返回的直接响应response

    response = requests.get(strat_url,headers,proxies)

    contest = etree.HTML(response.text)

    contest.xpath()

    相关文章

      网友评论

        本文标题:爬虫

        本文链接:https://www.haomeiwen.com/subject/zhptyftx.html