python爬虫

作者: 2e4932b22c75 | 来源:发表于2016-01-25 14:30 被阅读0次

3分钟带你了解世界第一语言Python 入门上手也这么简单！
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（二）- urllib爬虫案例
Python网络爬虫（一）- 入门基础
Python网络爬虫（四）- XPath
Python网络爬虫（三）- 爬虫进阶
Python网络爬虫（六）- Scrapy框架
Python网络爬虫（五）- Requests和Beautifu
Python网络爬虫实战之十四：Scrapy结合scrapy-s

访问网页

import urllib2

url="网站地址"(需要加协议，如http://)

response＝urllib2.urlopen(url)

response.read()即为网页代码

同时可用request对象访问

request=urllib2.Request(url)

response=urllib2.urlopen(request)

如果要登录或发送数据，需要以字典形式发送

import urllib

value=｛"username":"账号","password":"秘密"｝

#发送前还需要转换为特点格式

data=urllib.urlencode(value)

request=urllib2.Request(url,data)

response=urllib.urlopen(request)

获取cookie

import cookielib

cookie=cookielib.cookieJar()#创建cookie对象，用于存储cookie，但此时仍没有，需要获取

hander=urllib2.HTTPCookieProcessor(cookie)#创建cookie处理器

opener=urllib2.build_opener(hander)

opener.open(request)

#此时就已获取到了cookie

保存cookie

上个例子获取到cookie，但要重复利用，则需要保存到文件中，以便下次使用。

我们将上个例子中的cookieJar换为MozillaCookieJar(文件)

filename="cookie.txt"

cookie=cookielib.MozillaCookieJar(filename)

#下面相同

hander=urllib2.HTTPCookieProcessor(cookie)

opener=urllib2.build_opener(hander)

opener.open(request)

#此时已获取到cookie，下面将cookie保存

cookie.save(ignore_discard=True,ignore_expires=True)

#保存完成

#其中ignore_discard为获取失败也保存

ignore_expires为cookie存在时是否覆盖

读取cookie

#创建cookie对象

cookie=cookielib.MozillaCookieJar()

cookie.load(filename,ignore_discard=True,ignore_expires=True)

网友评论

本文标题：python爬虫

本文链接：https://www.haomeiwen.com/subject/tcwrkttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python爬虫

相关文章

3分钟带你了解世界第一语言Python 入门上手也这么简单！

Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序

Python网络爬虫（七）- 深度爬虫CrawlSpider

Python网络爬虫（二）- urllib爬虫案例

Python网络爬虫（一）- 入门基础

Python网络爬虫（四）- XPath

Python网络爬虫（三）- 爬虫进阶

Python网络爬虫（六）- Scrapy框架

Python网络爬虫（五）- Requests和Beautifu

Python网络爬虫实战之十四：Scrapy结合scrapy-s

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读