scrapy入门学习地图

scrapy 框架：`http://doc.scrapy.org/en/latest/topics/architecture.html`

爬虫学习路线：

关于爬虫学习曲线，曾经在知乎上发现一篇文章，现转载过来：

地址：```http://www.zhihu.com/question/20899988 作者：谢科

问题：Python 爬虫如何入门学习？

先长话短说summarize一下：
你需要学习

基本的爬虫工作原理

基本的http抓取工具，scrapy

Bloom Filter: [
[
[http://billmill.org/bloomfilter-tutorial/

如果需要大规模网页抓取，你需要学习分布式爬虫的概念。其实没那么玄乎，你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq:[https://
github.com/nvie/rq

rq和Scrapy的结合：[
[https://github.com/darkrho/scrapy-redis

后续处理，网页析取([https://github.com/grangier/python-goose
[
[

)，存储(Mongodb)

错误403:
403错误，是一种在网站访问过程中，常见的错误提示。
403错误，表示资源不可用。服务器理解客户的请求，但拒绝处理它，通常由于服务器上文件或目录的权限设置导致的WEB访问错误。

403.1 禁止：禁止执行访问如果从并不允许执行程序的目录中执行 CGI、ISAPI或其他执行程序就可能引起此错误。如果问题依然存在，请与 Web 服务器的管理员联系。
403.2 禁止：禁止读取访问如果没有可用的默认网页或未启用此目录的目录浏览，或者试图显示驻留在只标记为执行或脚本权限的目录中的HTML 页时就会导致此错误。如果问题依然存在，请与 Web 服务器的管理员联系。
403.3 禁止：禁止写访问如果试图上载或修改不允许写访问的目录中的文件，就会导致此问题。如果问题依然存在，请与 Web服务器的管理员联系。
403.4 禁止：需要 SSL 此错误表明试图访问的网页受安全套接字层（SSL）的保护。要查看，必须在试图访问的地址前输入https:// 以启用 SSL。如果问题依然存在，请与 Web服务器的管理员联系。
403.5 禁止：需要 SSL 128 此错误消息表明您试图访问的资源受 128位的安全套接字层（SSL）保护。要查看此资源，需要有支持此SSL 层的浏览器。请确认浏览器是否支持 128 位 SSL安全性。如果支持，就与 Web服务器的管理员联系，并报告问题。
403.6 禁止：拒绝 IP 地址如果服务器含有不允许访问此站点的 IP地址列表，并且您正使用的 IP地址在此列表中，就会导致此问题。如果问题依然存在，请与 Web服务器的管理员联系。
403.7 禁止：需要用户证书当试图访问的资源要求浏览器具有服务器可识别的用户安全套接字层（SSL）证书时就会导致此问题。可用来验证您是否为此资源的合法用户。请与 Web服务器的管理员联系以获取有效的用户证书。
403.8 禁止：禁止站点访问如果 Web服务器不为请求提供服务，或您没有连接到此站点的权限时，就会导致此问题。请与 Web 服务器的管理员联系。
403.9 禁止访问：所连接的用户太多如果 Web太忙并且由于流量过大而无法处理您的请求时就会导致此问题。请稍后再次连接。如果问题依然存在，请与 Web 服务器的管理员联系。
403.10 禁止访问：配置无效此时 Web 服务器的配置存在问题。如果问题依然存在，请与 Web服务器的管理员联系。
403.11 禁止访问：密码已更改在身份验证的过程中如果用户输入错误的密码，就会导致此错误。请刷新网页并重试。如果问题依然存在，请与 Web服务器的管理员联系。
403.12 禁止访问：映射程序拒绝访问拒绝用户证书试图访问此 Web 站点。请与站点管理员联系以建立用户证书权限。如果必要，也可以更改用户证书并重试。

solution:在settings.py里加入如下内容就可以模拟浏览器了
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0'

在Python的正则表达式中，有一个参数为re.S。它表示多行匹配。
在字符串a中，包含换行符\n，在这种情况下，如果不使用re.S参数，则只在每一行内进行匹配，如果一行没有，就换下一行重新开始。而使用re.S参数以后，正则表达式会将这个字符串作为一个整体，在整体中进行匹配。

匹配内容: