美文网首页
初识Python爬虫——Scrapy

初识Python爬虫——Scrapy

作者: 灰太狼_black | 来源:发表于2017-04-04 14:25 被阅读0次

欢迎关注微信公众号watson_python,及时获取最新的更新。


在Python下爬虫最好的框架是Scrapy,Scrapy依赖lxml,在pip下会自动安装所依赖的包。在Mac上可以用pip直接进行安装。Mac默认的Python是2.7版本的,本人自行安装过Python3.6,现在Python3.6下进行爬虫,执行一下命令来进行确认Python和pip的版本和Scrapy的安装。安装完成后会提示successful。

安装完成之后,我们通过Scrapy来创建我们第一个爬虫项目。

在PyCharm中打开刚才创建的项目MyScrapy,在spiders中创建我们的第一个爬虫。

imports crapy

class QuotesSpider(scrapy.Spider):

name = 'quotes'

def start_requests(self):

    urls = [

    'http://tieba.baidu.com/p/4900554515',

    ]

    for url in urls:

        yield scrapy.Request(url=url,callback=self.parse)

def parse(self, response):

    page = response.url.split('/')[-1]

    file__name = 'quotes-%s.htm' % page

   with open(file__name,'wb') as f:

        f.write(response.body)

    self.log('Saved file %s' % file__name)

在Terminal里执行如下命令来爬取第一个网页。

scrapy crawl quotes

相关文章

网友评论

      本文标题:初识Python爬虫——Scrapy

      本文链接:https://www.haomeiwen.com/subject/iroaottx.html