在刚开始接触爬虫时候,显示接触的是urllib2
这个应该在爬虫里面算是最基础的一种爬取网站的方法
导入模块方法:pip install urllib2
代码如下:
eg1:一个简单的爬取网站,但很容易被发现
#start_url是网址链接,headers是伪装浏览器代理,这里代表发送请求
request = urllib2.Request(start_url,headers)
#得到的响应
response = urllib2.urlopen()
eg2:反爬虫机制很容易发现,然后封ip
#刚开始第一步一样
request = urllib2.Request(start_url,headers)
#设置代理IP
proxy_bypass = urllib2.proxy_bypass({"":""})
#代理访问
build_opener = urllib2.build_opener()
#响应
response = build_opener.open()
这是一种非常容易和简单上手的,但只适合一个爬取小量数据在刚开始接触爬虫时候,显示接触的是urllib2
这个应该在爬虫里面算是最基础的一种爬取网站的方法
导入模块方法:pip install urllib2
代码如下:
eg1:一个简单的爬取网站,但很容易被发现
#start_url是网址链接,headers是伪装浏览器代理,这里代表发送请求
request = urllib2.Request(start_url,headers)
#得到的响应
response = urllib2.urlopen()
eg2:反爬虫机制很容易发现,然后封ip
#刚开始第一步一样
request = urllib2.Request(start_url,headers)
#设置代理IP
proxy_bypass = urllib2.proxy_bypass({"":""})
#代理访问
build_opener = urllib2.build_opener()
#响应
response = build_opener.open()
这是一种非常容易和简单上手的,但只适合一个爬取小量数据
这个和上一个urllib2一样,也是简单上手的爬虫模块,不过通常这个和lxml里面的etree一起来使用,获取的值可以用浏览器xpath或者正则来取得自己想要的
#唯一的区别是strat_url和headers,proxies都是写在一起的,这个返回的直接响应response
response = requests.get(strat_url,headers,proxies)
contest = etree.HTML(response.text)
contest.xpath()
网友评论