python 爬虫框架Scrapy使用方法

python 爬虫框架Scrapy使用方法

作者: STiAmo | 来源:发表于2020-01-04 19:46 被阅读0次

2019Python学习教程（全套Python学习视频）：Scr
ubuntu 16.04 安装 Scrapy
Swfit爬虫通过作者ID无接口获取简书文章列表，正则匹配HTM
Python爬虫学习教程：Scrapy爬虫框架入门
Python爬虫基础：scrapy框架简介及第一个scrapy爬
Scrapy 1.4 + Python 3.6模拟登陆知乎
Python + Scrapy爬取高逼格音乐网站《落网》
Python爬虫作业 | 爬取拉勾职位信息-Scrapy版
python3.6安装scrapy框架
python 爬虫框架Scrapy使用方法

Python作为脚本语言，功能非常强大，这里介绍一下爬虫框架Scrapy有安装及使用方法介绍。

一、安装篇

python3在安装scrapy时，需要twisted的支持，但安装twisted会需要visual studio的支持，详见本人的另一文章Python 3.5 安装scrapy无法找到vcvarsall.bat解决方案.

pip3 install twisted

pip install scrapy

二、使用介绍

开始项目scrapy startproject project

开始项目scrapy startproject project

此时会生成一个目录结构如下：

结构

2. shell工具介绍

scrapy自带shell工具，是进行测试的好地方,我们以起点小说网为例，网址为：https://www.qidian.com/

scrapy shell运行后，我们可借助一些函数进行数据定位、解析、子链接的提取：

view(response) 查看网页

fetch(url|) 抓新的网页

response.css('a[href') #scrapy内置css选择器，具体请百度其它文章

extractor_first() #解析文本

extractor() #解析列表

from scrapy.linkextractors import LinkExtractorle=LinkExtractor(restrict_css('a[href]')links=le.extract_links(le)#以上这段代码用来提取链接

3. 爬虫实现

3.1 先建一个要爬取内容的类ProjectItem, 存入items.py

3.2 我们在spider文件夹下建一个novelspider.py,写入相关代码

此时我们就要用到scrapy shell 帮忙测试了,比如我们要抓取《重生之财源滚滚》这本小说的小说名，可以在shell下用如下代码得到：

scrapy shell https://www.qidian.com/finish

novels=response.css('.book-mid-info')

novels[i].css('h4 a[href]::text').extract_first()'重生之财源滚滚'

通过上面的代码，我们把小说名给抓出来了.同理可以抓其它字段，具体代码如下：

4. 运行爬虫

回到project目录，运行scrapy crawl novel_qidian -o box.csv命令其中novel_qidian就是在novelSpider类中的name项, -o box.csv 即以csv文件形式存储内容以下是爬取到的内容：

scrapy作为一个异步爬虫框架，非常容易写出高质量的爬虫，同时scrapy还有很多功能中间件，对于设置访问头，图片及文件下载都有相应的方法，有兴趣的可以深入研究！

相关文章

2019Python学习教程（全套Python学习视频）：Scr
Scrapy爬虫框架入门 Scrapy概述 Scrapy是Python开发的一个非常流行的网络爬虫框架，可以用来抓...
ubuntu 16.04 安装 Scrapy
写爬虫首选Python，Python爬虫框架首选Scrapy。-- 沃滋基索德 Scrapy官网在醒目的地方告...
Swfit爬虫通过作者ID无接口获取简书文章列表，正则匹配HTM
上篇文章写过Python爬虫的方法，用的Scrapy框架。Python--Scrapy爬虫获取简书作者ID的全部文...
Python爬虫学习教程：Scrapy爬虫框架入门
Python爬虫学习教程：Scrapy概述 Scrapy是Python开发的一个非常流行的网络爬虫框架，可以用来抓...
Python爬虫基础：scrapy框架简介及第一个scrapy爬
scrapy框架简介 scrapy是一个使用Python语言（基于Twisted框架）编写的开源网络爬虫框架，目前...
Scrapy 1.4 + Python 3.6模拟登陆知乎
最近学习Python爬虫，用到了Scrapy这个爬虫框架。目前Scrapy的最新版本已经达到了Scrapy 1.4...
Python + Scrapy爬取高逼格音乐网站《落网》
最近，在学习Python的爬虫框架scrapy。现在利用scrapy框架，把之前写过的一个落网爬虫重新实现一遍。爬...
Python爬虫作业 | 爬取拉勾职位信息-Scrapy版
由于说到Python爬虫一定绕不过Scrapy框架，所以这次也就尝试将之前的爬虫用Scrapy框架爬取拉勾网,这个...
python3.6安装scrapy框架
网络爬虫，python3.6安装scrapy框架，cmd指令：pip install scrapy 由于Scrap...
python 爬虫框架Scrapy使用方法
Python作为脚本语言，功能非常强大，这里介绍一下爬虫框架Scrapy有安装及使用方法介绍。一、安装篇 pyt...

网友评论

本文标题：python 爬虫框架Scrapy使用方法

本文链接：https://www.haomeiwen.com/subject/breruqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|python 爬虫框架Scrapy使用方法|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！