python：Scrapy爬取360摄影美图

python：Scrapy爬取360摄影美图

作者: 9ba4bd5525b9 | 来源:发表于2019-04-22 15:09 被阅读28次

python：Scrapy爬取360摄影美图
Scrapy爬虫实战项目【002】 - 抓取360摄影美图
0.Python 爬虫之Scrapy入门实践指南（Scrapy基
Scrapy爬虫实战项目【003】 - 抓取360图解电影
各类链接
[CP_14] Python爬虫框架01：Scrapy框架创建项
简单的Scrapy数据爬虫
2021-07-21
3个适合新人上手的Python项目
Scrapy框架步骤

我们要爬取的网站为http://image.so.com/z?ch=photography，打开开发者工具，页面往下拉，观察到出现了如图所示Ajax请求

其中list就是图片的详细信息，接着观察到每个Ajax请求的sn值会递增30，当sn为30时，返回前30张图片，当sn为60时，返回第31到60张图片，所以我们每次抓取时需要改变sn的值。接下来实现这个项目。

首先新建一个项目：scrapy startproject images360

新建一个Spider：scrapy genspider images images.so.com

在settings.py中定义爬取的最大量：MAX_PAGE=10

定义一个Item以接收Spider返回的Item：

修改images.py：

利用urlencode()方法将data转化为URL的get参数，每次爬取30张图片直到爬取完成。

修改settings.py中ROBOTSTXT_OBEY变量为False，这个变量代表是否遵守网站的爬取规则，若不修改则无法爬取。

接下来我们要把爬取到的数据存入数据库，新建数据库以及表的操作在此不再赘述。创建好数据库及表后，我们需实现一个Item Pipeline以实现存入数据库的操作：

这里需要在settings.py中添加几个关于MySQL配置的变量，如下所示：

MYSQL_HOST = 'localhost'

MYSQL_DATABASE = 'images360'

MYSQL_PORT = 3306

MYSQL_USER = 'root'

MYSQL_PASSWORD = '123456'

scrapy提供了专门处理下载的Pipeline。首先定义存储文件的路径，在settings.py中添加：IMAGES_STORE = './images'

定义ImagePipeline：

get_media_requests()方法取出Item对象的URL字段，生成Request对象发送给Scheduler，等待执行下载。

file_path()方法返回图片保存的文件名。

item_complete()方法当图片下载成功时返回Item说明下载成功，否则抛出DropItem异常，忽略这张图片。

最后需在settings.py文件中设置ITEM_PIPELINES以启动item管道：

相关文章

python：Scrapy爬取360摄影美图
我们要爬取的网站为http://image.so.com/z?ch=photography，打开开发者工具，页面往...
Scrapy爬虫实战项目【002】 - 抓取360摄影美图
爬取360摄影美图参考来源：《Python3网络爬虫开发实战》第497页作者：崔庆才目的：使用Scrap...
0.Python 爬虫之Scrapy入门实践指南（Scrapy基
[TOC] 0.0、Scrapy基础 Python2：适合爬取非中文 Python3：适合爬取中文 Scrapy是...
Scrapy爬虫实战项目【003】 - 抓取360图解电影
爬取360图解电影原创目的：使用Scrapy爬取360图解电影，保存至MONGODB数据库，并将图集按电影名称...
各类链接
爬虫使用python-aiohttp爬取今日头条【Python】爬虫爬取各大网站新闻 Scrapy 模拟登录新...
[CP_14] Python爬虫框架01：Scrapy框架创建项
目录结构一、Scrapy框架简介 1. Scrapy引入 Scrapy：是用Python实现爬取网站数据、提取结...
简单的Scrapy数据爬虫
数据爬取展示：环境准备： Python 3+版本Pycharm（可以没有）Scrapy环境 Scrapy环境安装...
2021-07-21
Scrapy框架的基本使用 scrapy框架简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构...
3个适合新人上手的Python项目
人生苦短，我用Python！废话不多说，今天给大家分享三个极实用的Python爬虫案例。爬取网站美图爬取图片...
Scrapy框架步骤
简单了解一下Scrapy框架于操作步骤什么是Scrapy框架呢？ scrapy是python下的数据爬取集框架，...

网友评论

python

本文标题：python：Scrapy爬取360摄影美图

本文链接：https://www.haomeiwen.com/subject/jcwygqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

python

关于我们|服务条款|联系我们|python：Scrapy爬取360摄影美图|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！