美文网首页
python爬虫

python爬虫

作者: 2e4932b22c75 | 来源:发表于2016-01-25 14:30 被阅读0次

访问网页

import urllib2

url="网站地址"(需要加协议,如http://)

response=urllib2.urlopen(url)

response.read()即为网页代码

同时可用request对象访问

request=urllib2.Request(url)

response=urllib2.urlopen(request)

如果要登录或发送数据,需要以字典形式发送

import urllib

value={"username":"账号","password":"秘密"}

#发送前还需要转换为特点格式

data=urllib.urlencode(value)

request=urllib2.Request(url,data)

response=urllib.urlopen(request)

获取cookie

import cookielib

cookie=cookielib.cookieJar()#创建cookie对象,用于存储cookie,但此时仍没有,需要获取

hander=urllib2.HTTPCookieProcessor(cookie)#创建cookie处理器

opener=urllib2.build_opener(hander)

opener.open(request)

#此时就已获取到了cookie

保存cookie

上个例子获取到cookie,但要重复利用,则需要保存到文件中,以便下次使用。

我们将上个例子中的cookieJar换为MozillaCookieJar(文件)

filename="cookie.txt"

cookie=cookielib.MozillaCookieJar(filename)

#下面相同

hander=urllib2.HTTPCookieProcessor(cookie)

opener=urllib2.build_opener(hander)

opener.open(request)

#此时已获取到cookie,下面将cookie保存

cookie.save(ignore_discard=True,ignore_expires=True)

#保存完成

#其中ignore_discard为获取失败也保存

ignore_expires为cookie存在时是否覆盖

读取cookie

#创建cookie对象

cookie=cookielib.MozillaCookieJar()

cookie.load(filename,ignore_discard=True,ignore_expires=True)

相关文章

网友评论

      本文标题:python爬虫

      本文链接:https://www.haomeiwen.com/subject/tcwrkttx.html