美文网首页
Scrapy学习记录2

Scrapy学习记录2

作者: 枫落柠 | 来源:发表于2017-05-08 21:27 被阅读0次

标签: 信息检索


1. 创建一个Scrapy项目

scrapy startproject tutorial
1.jpg

2. 定义提取的Item

import scrapy 
class DmozItem(scrapy.Item):
        title=scrapy.Field()
        link=scrapy.Field()
        desc=scrapy.Field()

3. 编写爬取网站的 spider 并提取 Item

3.1编写初始spider

import scrapy
class DmozSpider(scrapy.Spider):
        name="dmoz"
        allowed_domains=["dmoz.org"]
        start_urls=[
        "http://dmoztools.net/Computers/Programming/Languages/Python/Books/",
        "http://dmoztools.net/Computers/Programming/Languages/Python/Resources/"
        ]
        def parse(self, response):
              filename=response.url.split("/")[-2]
              with open(filename, 'wb') as f:
                     f.write(response.body)

3.2爬取

scrapy crawl dmoz

4. 存储提取到的Item(即数据)

4.1提取数据

6.PNG 8.PNG

4.2修改spider提取数据

import scrapy

from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://dmoztools.net/Computers/Programming/Languages/Python/Books/",
        "http://dmoztools.net/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        for sel in response.xpath('//ul/li'):
            item = DmozItem()
            item['title'] = sel.xpath('a/text()').extract()
            item['link'] = sel.xpath('a/@href').extract()
            item['desc'] = sel.xpath('text()').extract()
            yield item

4.3 保存爬取的数据

scrapy crawl dmoz -o items.json

20.PNG

阅读材料:
scrapy官方文档

相关文章

  • Scrapy学习记录2

    标签: 信息检索 1. 创建一个Scrapy项目 2. 定义提取的Item 3. 编写爬取网站的 spider 并...

  • scrapy学习记录

    scrapy源码 scrapy架构 Engine 引擎,处理整个系统的数据流处理、触发事务,是整个框架的核心 It...

  • Scrapy学习2

    Selector对象 一创建对象 ①Selector类的实现位于scrapy.selector模块,创建Selec...

  • Mac 安装Scrapy

    刚学习完Python,准备使用Scrapy练习爬虫。记录一下,在Mac环境下安装Scrapy的步骤及初始工程。 打...

  • Scrapy爬虫学习记录

    昨天休息的时候偶然发现了一个的球鞋网站,上面有很多关于球鞋的资讯。于是,决定现学现卖,学习scrapy把数据都给爬...

  • Linux上使用crontab命令完成定时爬虫

    本文主要记录: 1、crontab的用法。 2、crontab与scrapy的结合。 一...

  • scrapy->pywin32

    scrapy遇见三个问题:(仅供自己学习记录) 1:no module named win32API https:...

  • scrapy

    scrapy学习 一、scrapy框架介绍 Scrapy Engine(引擎): 负责Spider、ItemPip...

  • Scrapy框架学习2

    yield关键字 yield<——>生成器 生成器是一个不断产生值的函数 包含yield语句 的函数是一个生...

  • Python爬虫框架scrapy入门使用记录

    1、安装scrapy,pip install scrapy即可2、新建项目scrapy startproject ...

网友评论

      本文标题:Scrapy学习记录2

      本文链接:https://www.haomeiwen.com/subject/nalvtxtx.html