利用Scrapy框架爬取豆瓣TOP250

利用Scrapy框架爬取豆瓣TOP250

作者: coder_it | 来源:发表于2018-10-10 22:55 被阅读147次

scrapy爬取豆瓣电影
【scrapy】爬取豆瓣top250的电影信息
Python学习
利用Scrapy框架爬取豆瓣TOP250
IR03-利用Scrapy爬取豆瓣电影Top250
Scrapy爬取猫眼电影并存入MongoDB数据库
爬取豆瓣图书top250信息实验报告
scrapy 爬虫初体验(1)
利用scrapy爬取豆瓣top250
scrapy爬取豆瓣电影

一、Scrapy是什么

百度是这么说的:
1、Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试
其实说白了Scrapy就是Python网络爬虫的一个很强的框架
2、怎么安装Scrapy...
这个先略过不懂的自己先百度去，因为里面的坑比较多
3、看看scrapy的原理图 :
Scrapy使用了Twisted异步网络库来处理网络通讯

image.png
注明：图片来源于互联网

(1)、Scrapy Engine（Scrapy引擎）

Scrapy引擎是用来控制整个系统的数据处理流程，并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

(2)、Scheduler（调度）

调度程序从Scrapy引擎接受请求并排序列入队列，并在Scrapy引擎发出请求后返还给他们。

(3)、Downloader（下载器）

下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

(4)、Spiders（蜘蛛）

蜘蛛是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类，每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。
原理图大家看看大概可以理解就行

二、Scrapy创建项目

捕获.JPG

里面的命令都很清晰吧
scrapy startproject xxx
xxx表示爬虫的名字:

捕获3.JPG

这个是它的结构创建成功之后会自动生成的一些配置和spider文件

scrapy shell http://www.baidu.com

捕获1.JPG
200表示请求数据成功

三、开始爬取豆瓣top250

1.JPG

我们要获取的数据这个<div class="article"></div>标签里面
可以用xpath或者CSS都可以,我用的是xpath解析数据，可以自己去下载一个xpath helper然后拖到Google浏览器里面去
1)新建douban

2.JPG

2)定义items

4.JPG

3)xapth解析数据

7.JPG

如何运行这个爬虫？命令行：
scrapy crawl douban_spider

也可以这样子

9.JPG

最后附上一张图

577.jpg

1111.jpg

1438.png

下一篇文章告诉大家怎么把爬取的数据保存为TXT或者json数据和MySQL里面去

相关文章

scrapy爬取豆瓣电影
scrapy爬取豆瓣电影，存储在MongoDB 本节分享用的Scrapy爬取豆瓣电影Top250的实战。本节要实...
【scrapy】爬取豆瓣top250的电影信息
前言利用scrapy爬取豆瓣上top250条电影信息其实挺容易的，主要是用来熟悉一下如何利用scrapy快速写一...
Python学习
python爬虫(五) python爬虫爬取豆瓣电影Top250数据利用python爬取豆瓣电影TOP250页面...
利用Scrapy框架爬取豆瓣TOP250
一、Scrapy是什么百度是这么说的:1、Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取...
IR03-利用Scrapy爬取豆瓣电影Top250
实验名称利用scrapy爬虫爬取豆瓣Top250电影的详细信息实验环境系统环境：Win7, Mac OSX1...
Scrapy爬取猫眼电影并存入MongoDB数据库
之前入门了Scrapy，用Scrapy框架爬取了豆瓣电影TOP250，最近打算学习下scrapy-redis分布式...
爬取豆瓣图书top250信息实验报告
一、实验目的：本次实验旨在在scrapy应用框架下，通过使用CSS路径爬取豆瓣图书top250网页信息，包括图书封...
scrapy 爬虫初体验(1)
目录前言 scrapy 数据流 scrapy 组件爬取豆瓣电影 Top250 后记送书后话前言为什么要学...
利用scrapy爬取豆瓣top250
前言(目的) 本文为scrapy爬虫的入门文章，作者尽量将自己刚开始学习所遇到的问题都还原出来，过程尽量写得详细详...
scrapy爬取豆瓣电影
摘要通过scrapy框架爬取豆瓣top250电影，并保存为文件 1．引言随着网络的迅速发展，互联网成为大量信息...

网友评论

本文标题：利用Scrapy框架爬取豆瓣TOP250

本文链接：https://www.haomeiwen.com/subject/mpomaftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据爬虫Python AI Sql

热点阅读

爬虫专题

大数据爬虫Python AI Sql

关于我们|服务条款|联系我们|利用Scrapy框架爬取豆瓣TOP250|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！