所谓的网页抓取,就是吧url地址中指定的网络资源从网络流中读取出来,保存在本地。
其中,urlbil2库就可以实现。
urlb2是py2自带的模块,不需下载,导入即可使用。
(urllib2在py3中被改为了urllib.request)
代码1:
#coding=utf-8
import urllib2 #引入库
#urlopen方法是向指定的url地址发送请求,并且返回服务器响应的类文件对象
response = urllib2.urlopen('http://www.baidu.com')
#类文件对象 支持 文件对象的操作方法,例如read()方法读取文件的全部内容,返回的是字符串。
html = response.read()
#打印字符串
print html
以上的代码返回的就是百度首页的HTML内容。
通过右键‘查看源代码’看到的内容和返回的代码是一样的。
Request
在代码1中,urlopen()的参数只有一个url地址。
但是为了完成更复杂的操作,比如增加HTTP报头,必须创建Request实例作为urlopen()的参数;而需要访问的url地址则作为Request实例的参数。
代码2:
#coding= utf-8
import urllib2
url = 'http://www.baidu.com'
#url作为Request方法的参数,构造并返回一个Request对象
request = urllib2.Request(url)
#Request对象作为urlopen方法的参数,发送给服务器并接受响应
response = urllib2.urlopen(request)
html = response.read()
print html
上述代码只是把参数url放在了Reuqest中实现而已。
注意: 新建的request实例,除了url参数之外还有设置另外两个参数:
<ul><li>1.data(默认空):和url一起提交数据(比如要post的数据)。只有POST方式的时候使用这个参数。GET方法不用。</li>
<li>2.headers(默认空):字典,包含需要发送的HTTP爆头的键值对</li></ul>
User-Agent:
urllib2默认的user-agent的头为Python-urllib/x.y(x和y是Python主版本和次版本号,例如 Python-urllib/2.7)。所以为了不被发现就需要一个新的‘身份’作为User-Agent。
添加Header信息
在HTTP Headers中添加特定的Header,来构造一个完整的HTTP请求消息。
可以通过Request.add_header()添加/修改一个特定的header,也可以用Request.get_header()来查看已有的headers。
添加一个特定的header
代码3:
import urllib2
url = "http://www.baidu.com"
#IE 9.0 的 User-Agent
header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
request = urllib2.Request(url, headers = header)
#通过调用Request.add_header() 添加/修改一个特定的header
#keep-alive表示长链接
request.add_header("Connection", "keep-alive")
# 也可以通过调用Request.get_header()来查看header信息
# request.get_header(header_name="Connection")
response = urllib2.urlopen(request)
print response.code #可以查看响应状态码
html = response.read()
print html
随机添加/修改一个user-agent:
import urllib2
import random
url = "http://www.ittop.cn"
ua_list = [
"Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
"Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
"Mozilla/5.0 (Macintosh; Intel Mac OS... "
]
user_agent = random.choice(ua_list)
request = urllib2.Request(url)
#也可以通过调用Request.add_header() 添加/修改一个特定的header
request.add_header("User-Agent", user_agent)
# 第一个字母大写,后面的全部小写
request.get_header("User-agent")
response = urllib2.urlopen(request)
html = response.read()
print html
网友评论