美文网首页
【爬虫】-011-Scrapy-获取下级页面的链接

【爬虫】-011-Scrapy-获取下级页面的链接

作者: 9756a8680596 | 来源:发表于2019-03-10 23:49 被阅读0次

接上一个例子,通过重写Scrapy框架中是基础爬虫中的方法parse,我们可以获得当前页面中的房源标题和价格等信息,但是如果想要继续获取下一页等信息如何操作?这时候可以用到scrapy中的Request类来完成这个操作。

基本思路:

  • 首先,在页面中定位到下一页元素的xpath,获取元素的链接;
  • 然后,将获取的链接,重新丢回调度器,并指定回调函数-->使用scrapy.Request类实现。
  • 这里面有个小知识点,即需要用到生成器yield,不断的往复如上操作。
 # 重写爬取数据函数
    def parse(self, response):
        # 查看response信息
        # print(response)

        # 获取页面标题和价格信息
        titles = response.xpath('//dl[@class="f-list-item-wrap min-line-height f-clear"]/dd/a/@title').extract()
        prices = response.xpath('//span[@class="num"]/text()').extract()

        # 打印获取等元素信息
        for title, price in zip(titles, prices):
            print(title, ': ', price)

        # 信息入库操作
        gjzf = GanjizufanghzItem()
        for title, price in zip(titles, prices):
            gjzf['title'] = title
            gjzf['price'] = price
            yield gjzf

        time.sleep(3)

        # 获取下一页等链接,并回调进行再次抓取
        next_links = response.xpath('//a[@class="next"]/@href').extract()
        if len(next_links) > 0:
            print('*'*10, next_links[0], '*'*10)
            # 使用scrapy等回调函数自动获取下一页链接
            # 第一个参数 是 下一页 链接(字符串);第二个是回调函数
            yield scrapy.Request(next_links[0], callback=self.parse)

相关文章

  • 【爬虫】-011-Scrapy-获取下级页面的链接

    接上一个例子,通过重写Scrapy框架中是基础爬虫中的方法parse,我们可以获得当前页面中的房源标题和价格等信息...

  • python爬取斗破苍穹小说

    通过python批量自动化下载斗破苍穹小说 效果是这样的 我的代码 总结 爬虫思路-获取多页访问链接->获取每页图...

  • python爬取百度美女图片

    通过python批量自动化下载百度美女图片 效果是这样的 我的代码 总结 爬虫思路-获取多页访问链接->获取每页图...

  • pyhton实战作业2_2

    写了两个爬虫本质上其实是跟一个爬虫一样的 爬虫1:获取所有手机号的链接,并且存在数据库里一共116页 爬虫2:从数...

  • 使用 Scrapy 框架爬取自己的简书文章

    先爬取自己的简书页面来试下手。简单地获取个人简书页面的文章和链接。 创建项目 创建爬虫 编写爬虫 先启动 chro...

  • Python 2.7 时间毫秒微秒级增减

    写爬虫遇到需要根据返回数据中的时间字符串构造下一页链接,方法为获取到的时间增加或减少 1 毫秒。 获取到的时间字符...

  • 用Python爬取豆瓣Top250的电影标题

    所以我们可以这么写去得到所有页面的链接 进群:700341555获取Python爬虫教程! 我们知道标题是在 ta...

  • (2018-05-21.Python从Zero到One)5、(爬

    (实战项目三)新浪网分类资讯爬虫 爬取新浪网导航页所有下所有大类、小类、小类里的子链接,以及子链接页面的新闻内容。...

  • python爬取百度图片详细教程

    首先通过urllib获取网页的源码 获取下一页的url链接,当本页的图片链接获取完毕,再继续获取下一页的。使用Py...

  • Python爬虫 简谱网-简谱

    Python爬虫 简谱网-简谱 爬取步骤 request库获取网页,找到规律,循环获取 正则表达式获取简谱图片链接...

网友评论

      本文标题:【爬虫】-011-Scrapy-获取下级页面的链接

      本文链接:https://www.haomeiwen.com/subject/fkrtyqtx.html