美文网首页
关于Scrapy

关于Scrapy

作者: idri | 来源:发表于2017-09-11 14:40 被阅读0次
image.png

Requests
Responses

Downloaders Middlewares
Spider Middlewares

1、Engine向spider请求第一个URL
2、Engine获取URL拿给调度器(scheduler)调度
3、Engine向Scheduler请求下一个要爬取的URL
4、Scheduler返回URL给Engine,Engine通过Downloader Middlewares转发给Downloader这个Request
5、下载完毕,Downloader生成Response通过DM发给Engine
6、Engine接受Response通过Spider Middlewares发给Spider
7、Spider处理Response并返回爬取的Items、Request发送给Engine
8、Engine将Items发送给Item Pipeline,将Request发送给Scheduler
9、重复2,直到Spider中Request全部处理完毕

items:包含item
pipelines:对item处理,清洗、验证、持久化
setting:配置middlewares
spiders>
start_request:返回request给Scheduler
parse:解析页面,返回item给pipelines

  • 代理IP

  • Cookie
    登录方法:1.添加cookies 2.FormRequest:在parse中返回一个FormRequest,包含参数formdata字典,字典包含account/csrf_token/grant_type/redirect_url等值

其他处理:cookies middleware

  • JS
    1.selenium
    模拟浏览器 webbdriver_Firefox().get(url)
    查看浏览器网络,XHR,找到js产生的请求,返回的是JSON。

  • Scrapyd 部署 运行scrapy的应用,使用JSON API部署工程

相关文章

网友评论

      本文标题:关于Scrapy

      本文链接:https://www.haomeiwen.com/subject/zlqfsxtx.html