美文网首页
1.Scrapy爬虫之静态网页爬取之二初识scrapy框架及几种

1.Scrapy爬虫之静态网页爬取之二初识scrapy框架及几种

作者: siro刹那 | 来源:发表于2017-05-11 15:25 被阅读65次

    1.scrapy框架讲解:

    1
    downloader实际上是一个下载器,给一个网址发起请求,downloader就负责下载
    从scheduler力需要爬取的网址丢给downloader。
    spiders的作用是啥,我们爬数据时候页面里面还有链接,返回我们需要继续爬取的链接继续爬。spiders把要的数据给pipline然后发现还有些需要的链接给scheduler,然后形成了一个循环。
    我们要抓取大型的数据,需要初始化一个项目,像淘宝这种大型网站,数据抓取,处理等等。但是平时我们需要抓取一些量不多的数据,为了方便,我们只写spider.py.
    还有注意:有些是静态网站,有些是动态网站(js,ajax)配置downloadermiddlewares来完成
    2.了解scrapy spider:
    2.1先知道这个命令:
    运行蜘蛛的命令:scrapy runspider spider_test1.py
    把运行好的数据写入文件命令:scrapy runspider spider_test1.py -o spider_test1.csv
    scrapy runspider spider.py -o xxx.csv 运行一个蜘蛛,再写到csv文件中
    2.2scrapy spider几种爬取方式:
    1.爬取1页内容
    2.按照给定列表爬取多页 给多个url,自己拼接,url用脚本生成好了,在一个列表里灌给蜘蛛
    3."下一页"类型
    4.按照链接进行爬取

    相关文章

      网友评论

          本文标题:1.Scrapy爬虫之静态网页爬取之二初识scrapy框架及几种

          本文链接:https://www.haomeiwen.com/subject/nnvotxtx.html