美文网首页scrapy爬虫学习笔记
scrapy学习笔记(三)

scrapy学习笔记(三)

作者: ATangYaaaa | 来源:发表于2017-12-21 15:02 被阅读0次

永远保持一颗求知的心,不要被已知所束缚。

好冷的天,人的惰性又在制约着我。

A任务:爬取http://www.dmoztools.net中关于Chaos的资源数据

访问目的网页:

http://www.dmoztools.net/Science/Math/Chaos_and_Fractals/Chaos/

分析网页元素:

图一 目的网页分析

可以看到我们要爬取的内容在上述div标签中已全部包含,单独爬去上述网页即可。分析要爬取的item元素:

图片二 爬取元素分析

新建工程:

> scrapy startproject dmoztools

> cd dmoztools

创建爬虫:

> scrapy genspider dmoztools_spider dmoztools.net

编辑并保存子文件夹中的items.py:

# -*- coding: utf-8 -*-

import scrapy

class DmoztoolsItem(scrapy.Item):

      title = scrapy.Field()

      link = scrapy.Field()

      path = scrapy.Field()

编辑爬虫主体内容并保存至子文件夹的dmoztools_spider.py:

# -*- coding: utf-8 -*-

import scrapy

from dmoztools.items import DmoztoolsItem

class DmoztoolsSpiderSpider(scrapy.Spider):

      name = 'dmoztools_spider'

      allowed_domains = ['dmoztools.net']

      start_urls = ['http://www.dmoztools.net/Science/Math/Chaos_and_Fractals/Chaos/']

      def parse(self, response):

            lis = response.xpath('//div[contains(@class,"site-item")]/div[3]')

            for li in lis:

                  item = DmoztoolsItem()

                  item['title']=li.xpath('a/div/text()').extract()

                  item['link']=li.xpath('a/@href').extract()

                  item['path']=li.xpath('div/text()').extract()

                  yield item

运行爬虫:

> scrapy crawl dmoztools_spider

就可以在命令行输出中看到爬取内容进行了。

这里重点学习xpath选择器使用规则和items的编写及引入。

相关文章

  • scrapy学习笔记(有示例版)

    scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...

  • scrapy笔记

    1 scrapy的运行原理 参考:Learning Scrapy笔记(三)- Scrapy基础Scrapy爬虫入门...

  • scrapy学习笔记(三)

    永远保持一颗求知的心,不要被已知所束缚。 好冷的天,人的惰性又在制约着我。 A任务:爬取http://www.dm...

  • 2018-08-12

    Scrapy学习 《精通Scrapy网络爬虫》第八章--仅作为本人学习笔记,如有侵权,请私信我删除 1、项目需求 ...

  • Scrapy笔记

    Scrapy笔记 安装scrapy框架: 安装scrapy:通过pip install scrapy即可安装。 如...

  • 使用scrapy-deltafetch实现增量爬取

    Scrapy学习笔记-使用scrapy-deltafetch实现增量爬取 前言 在之前的文章中我们都是对目标站点进...

  • scrapy笔记(4) - 跟踪调试scrapy

    学习要点 学习如何跟踪调试scrapy框架 oh..距离上次写scrapy笔记3已经有一个多月了,跳票这么久,除了...

  • Scrapy笔记

    Scrapy笔记 pip 指定源安装模块 创建Scrapy项目 创建Scrapy爬虫程序 启动Scrapy爬虫 在...

  • scrapy学习笔记(〇)

    人若无名,便可潜心练剑。 本篇补冲基础知识:scrapy架构安装和shell用法。 安装顺序: 1. Python...

  • Scrapy学习笔记

    安装 python:python3现在各种包对3的支持都变的原来越好了,上一个系统装scarpy时还是各种问题(捂...

网友评论

    本文标题:scrapy学习笔记(三)

    本文链接:https://www.haomeiwen.com/subject/iyoowxtx.html