美文网首页
【imooc】Python开发简单爬虫

【imooc】Python开发简单爬虫

作者: SpringWolfM | 来源:发表于2018-01-22 13:09 被阅读0次

1. 结构相关

1.1 明确爬虫架构

爬虫架构

1.2 URL管理器

URL管理器

URL管理器实现方式



互联网公司使用缓存数据库
个人可以使用内存,内存不够用或者想要永久储存,用关系型数据库

1.3网页下载器

网页下载器

关于Python3:
python 3.x中urllib库和urilib2库合并成了urllib库。。
其中urllib2.urlopen()变成了urllib.request.urlopen()
urllib2.Request()变成了urllib.request.Request()

1.3.1 网页下载器用法

方法1

方法1
方法2 方法2
方法2
方法3 方法3
方法3

对于Python 3.x,代码需要做相应改变:

import urllib.request
resp = urllib.request.urlopen('http://www.baidu.com')
print(resp.getcode())

相关文章

网友评论

      本文标题:【imooc】Python开发简单爬虫

      本文链接:https://www.haomeiwen.com/subject/usslaxtx.html