Day10-用Scrapy爬豆瓣

作者: 小红鱼 | 来源:发表于2017-03-13 20:00 被阅读49次

Day10-用Scrapy爬豆瓣
[scrapy]scrapy爬取京东商品信息——以自营手机为例
Scrapy爬取猫眼电影并存入MongoDB数据库
scrapy爬取豆瓣电影
用scrapy爬豆瓣电影信息
scrapy爬虫笔记（一）
scrapy 爬虫初体验(1)
scrapy爬取豆瓣电影top250
scrapy爬虫练习-3-26
Scrapy爬取豆瓣电影

今天继续练习scrapy，去爬豆瓣top250的图书，原站地址：https://book.douban.com/top250。

1.首先，按照Day1的步骤，编写以下代码爬取第一页的书本信息：

items.py配置如下：

运行一下，发现报错：

这应该是目标站点有反爬的功能，访问被禁止了。

2.给脚本配置一个user agent，模拟真实的浏览器

在middlewares.py中，增加以下代码：

在settings中增加以下代码：

目前还是只能爬第一页，需要爬取全部的250本书的简介，bookspider中增加代码：

3. 保存在csv文件中

事实上，scrapy有命令支持把item保存在csv文件中，不用自己在pipelines.py中编写代码。运行命令：

>scrapy crawl douban -o douban_book.csv

打开douban_book.csv，我们可以看到图书信息都已经保存下来：

Day10-用Scrapy爬豆瓣
今天继续练习scrapy，去爬豆瓣top250的图书，原站地址：https://book.douban.com/t...
[scrapy]scrapy爬取京东商品信息——以自营手机为例
关于scrapy以及使用的代理轮换中间件请参考我的爬取豆瓣文章：【scrapy】scrapy按分类爬取豆瓣电影基...
Scrapy爬取猫眼电影并存入MongoDB数据库
之前入门了Scrapy，用Scrapy框架爬取了豆瓣电影TOP250，最近打算学习下scrapy-redis分布式...
scrapy爬取豆瓣电影
scrapy爬取豆瓣电影，存储在MongoDB 本节分享用的Scrapy爬取豆瓣电影Top250的实战。本节要实...
用scrapy爬豆瓣电影信息
一说明文本不介绍scrapy的安装，关于scrapy的安装网上能够找到很多文章，本文主要讲解如何爬取网页上信息。本...
scrapy爬虫笔记（一）
最近因为需要爬取豆瓣的排名250的榜单，所以打算用scrapy去爬取，现将学习的笔记整理为一篇笔记。这篇笔记是针对...
scrapy 爬虫初体验(1)
目录前言 scrapy 数据流 scrapy 组件爬取豆瓣电影 Top250 后记送书后话前言为什么要学...
scrapy爬取豆瓣电影top250
学习scrapy，总结下使用scrapy爬取豆瓣电影的demo，以及中间遇到的问题。核心就是一个spider和一...
scrapy爬虫练习-3-26
剧情回顾上一回，完成了使用scrapy框架重写了requests对豆瓣高分电影的爬取。由此对scrapy这个框架...
Scrapy爬取豆瓣电影
1.在items.py中定义字段，这些字段用来保存数据，方便后续的操作 2.修改settings.py对项目进行配...