一. Scrapy爬虫基础

一. Scrapy爬虫基础

作者: 橄榄的世界 | 来源:发表于2018-03-04 12:31 被阅读0次

scrapy笔记
爬虫实战系列说明
10分钟从入门到进阶python爬虫
Pycharm+Scrapy框架运行爬虫糗事百科（无items数
爬虫框架常见命令（善忘者）
一. Scrapy爬虫基础
scrapy爬虫基础(一)
Scrapy笔记
scrapy爬虫
深度爬虫

最简单的Scrapy爬虫程序：

import scrapy

class Books(scrapy.Spider):
    name = 'books'                                               #建立唯一爬虫名，调用CMD命令时会用到
    start_urls = ['http://books.toscrape.com/']                  #爬取开始地址

    def parse(self, response):                       #默认解析函数
        infos = response.xpath('//article')          #直接使用response.xpath来解析信息
        for info in infos:
            title = info.xpath("h3/a/@title").extract()              #最终提取信息时，加上.extract()
            price = info.xpath('div/p[@class="price_color"]/text()').extract()

            yield {'title':title,'price':price}                               #生成器返回数据信息

运行命令：scrapy crawl books -o books.csv
结果截图：

image.png

当然，如果要爬取下一页的页面，共计50页，可以在parse()函数下添加以下代码，然后运行上述代码即可获取每页20条，共计1000条的图书标题以及价格信息：

def parse(self, response):  
    ...
    next_url = response.xpath('//li[@class="next"]/a/@href').extract()[0]
            if next_url:
                next_url = response.urljoin(next_url)
                yield Request(next_url,callback=self.parse)

相关文章

scrapy笔记
1 scrapy的运行原理参考：Learning Scrapy笔记（三）- Scrapy基础Scrapy爬虫入门...
爬虫实战系列说明
说明本系列文章只会介绍爬虫框架scrapy的实际使用以及scrapy的核心原理，爬虫所需的前端基础（HTML，C...
10分钟从入门到进阶python爬虫
本文目录基础入门基本模块方法实例爬虫框架（scrapy）常用工具（神器）分布式爬虫一、基础入门 1....
Pycharm+Scrapy框架运行爬虫糗事百科（无items数
scrapy爬虫框架 qsbk.py 爬虫代码 import scrapy'''scrapy框架爬虫流程：发送请求...
爬虫框架常见命令（善忘者）
1 scrapy 创建scrapy 爬虫项目生成一个爬虫启动爬虫 2 scrapy-crawl 生成一个cr...
一. Scrapy爬虫基础
最简单的Scrapy爬虫程序：运行命令：scrapy crawl books -o books.csv结果截图：...
scrapy爬虫基础(一)
准备工作安装 anaconda下载地址[https://www.anaconda.com/products/in...
Scrapy笔记
Scrapy笔记 pip 指定源安装模块创建Scrapy项目创建Scrapy爬虫程序启动Scrapy爬虫在...
scrapy爬虫
运行爬虫 scrapy crawl +<爬虫名字>Scrapy的安装：pip install scrapy创建s...
深度爬虫
scrapy深度爬虫 1.深度爬虫概述2.scrapy Spider实现的什么爬虫3.scrapy CrawlSp...

网友评论

精通scrapy网络爬虫

本文标题：一. Scrapy爬虫基础

本文链接：https://www.haomeiwen.com/subject/ozjxfftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

精通scrapy网络爬虫

热点阅读

精通scrapy网络爬虫

关于我们|服务条款|联系我们|一. Scrapy爬虫基础|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！