美文网首页
Python爬虫----初窥Scrapy

Python爬虫----初窥Scrapy

作者: 梵高先生uu | 来源:发表于2019-01-06 19:54 被阅读0次

    为什么要学习scrapy,简单来说就是让爬虫更快更强.

    安装命令

    sudo pip3 install scrapy
    

    在开始爬取之前,必须创建一个新的Scrapy项目。

    scrapy startproject 项目名称
    

    新建爬虫文件

     scrapy genspider jobbole jobbole.com
    

    然后在创建的爬虫文件jobbole.py中就可以发起请求,并提取想要的数据,将start_urls(设置起始url)的值修改为需要爬取的第一个url

    start_urls = ("http://blog.jobbole.com/all-posts/",)
    

    在items.py文件中添加字段(Item 定义结构化数据字段,用来保存爬取到的数据,有点像Python中的dict,但是提供了一些额外的保护减少错误)

    class JobboleItem(scrapy.Item):
    
        # define the fields for your item here like:
        #标题
        title = scrapy.Field()
        #创建时间
        create_date = scrapy.Field()
    

    在setting.py中启用一个Item Pipeline组件,当Item在Spider中被收集之后,它将会被传递到Item Pipeline,所以我们只需在pipeline文件中设置文件写入本地的格式和地址即可

    相关文章

      网友评论

          本文标题:Python爬虫----初窥Scrapy

          本文链接:https://www.haomeiwen.com/subject/ecferqtx.html