初识Python爬虫——Scrapy

作者: 灰太狼_black | 来源:发表于2017-04-04 14:25 被阅读0次

初识Python爬虫——Scrapy
ubuntu 16.04 安装 Scrapy
Swfit爬虫通过作者ID无接口获取简书文章列表，正则匹配HTM
Python爬虫学习教程：Scrapy爬虫框架入门
scrapy发送post请求进行登录
第九章 scrapy-redis 分布式爬虫
Scrapy 1.4 + Python 3.6模拟登陆知乎
2019Python学习教程（全套Python学习视频）：Scr
简单Python小爬虫
第七章反爬虫机制

欢迎关注微信公众号watson_python，及时获取最新的更新。

在Python下爬虫最好的框架是Scrapy，Scrapy依赖lxml，在pip下会自动安装所依赖的包。在Mac上可以用pip直接进行安装。Mac默认的Python是2.7版本的，本人自行安装过Python3.6，现在Python3.6下进行爬虫，执行一下命令来进行确认Python和pip的版本和Scrapy的安装。安装完成后会提示successful。

安装完成之后，我们通过Scrapy来创建我们第一个爬虫项目。

在PyCharm中打开刚才创建的项目MyScrapy，在spiders中创建我们的第一个爬虫。

imports crapy

class QuotesSpider(scrapy.Spider):

name = 'quotes'

def start_requests(self):

urls = [

'http://tieba.baidu.com/p/4900554515',

]

for url in urls:

yield scrapy.Request(url=url,callback=self.parse)

def parse(self, response):

page = response.url.split('/')[-1]

file__name = 'quotes-%s.htm' % page

with open(file__name,'wb') as f:

f.write(response.body)

self.log('Saved file %s' % file__name)

在Terminal里执行如下命令来爬取第一个网页。

scrapy crawl quotes

网友评论

本文标题：初识Python爬虫——Scrapy

本文链接：https://www.haomeiwen.com/subject/iroaottx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

初识Python爬虫——Scrapy

欢迎关注微信公众号watson_python，及时获取最新的更新。

相关文章