1. 结构相关

1.1 明确爬虫架构

爬虫架构

URL管理器

URL管理器实现方式

互联网公司使用缓存数据库
个人可以使用内存，内存不够用或者想要永久储存，用关系型数据库

网页下载器

关于Python3：
python 3.x中urllib库和urilib2库合并成了urllib库。。
其中urllib2.urlopen()变成了urllib.request.urlopen()
urllib2.Request()变成了urllib.request.Request()

方法1

方法1
方法2

方法2

方法2
方法3

方法3

对于Python 3.x，代码需要做相应改变：

import urllib.request
resp = urllib.request.urlopen('http://www.baidu.com')
print(resp.getcode())

【imooc】Python开发简单爬虫
1. 结构相关 1.1 明确爬虫架构 1.2 URL管理器 URL管理器实现方式互联网公司使用缓存数据库个人可以...
微笔记：Python开发简单爬虫
原文信息标题：Python开发简单爬虫作者：疯狂的蚂蚁crazyant链接：http://www.imooc.co...
Python网络爬虫
Python开发简单爬虫（Python2.X版本，Eclipse工具）一、爬虫介绍爬虫调度端：启动、停止爬虫，...
一篇文章学习 Python 网络爬虫
一、爬虫开发基础爬虫基础分为 Python 基础，网页常识和网页分析三部分。学习爬虫需要有简单的 Python...
Python2.7爬虫-爬取简书文章-入门
参考原文： python开发简单爬虫Python爬虫实战Firefox抓包分析分为五个模块：主模块、URL管理器...
各语言简单爬虫
各语言简单爬虫 Python 简单爬虫 golang简单爬虫
Python 爬虫学习笔记（一）
视频教程：慕课网 Python开发简单爬虫 1.简单爬虫架构 2.爬虫架构的运行流程 3.URL管理器 4.UR...
python爬虫
转载自：http://www.imooc.com/article/15028 爬虫基本架构一个网络爬虫的简单架构...
一. Python爬虫简单框架
1.参考视频为：https://www.imooc.com/learn/563 2.简单爬虫结构的五个部分：爬虫...
百度Python工程师告诉你学好Python一定要养成的那些编程
Python是一种非常简单易学的编程语言，Python可参与web开发、爬虫开发、人工智能开发，都是当下非常火热的...