美文网首页
Scrapy之LinkExtractor2019-03-06

Scrapy之LinkExtractor2019-03-06

作者: oldfred | 来源:发表于2019-03-06 16:55 被阅读0次

如何取得列表页中的内容链接呢?方法有很多,但LE应当是最简单的一个了。
使用这个工具之前,先引入。

from scrapy.linkextractors import LinkExtractor

注意,linkextractors是个复数。
然后在程序中就可以使用了。
先用LinkExtractor确定查链方法。如:

l = LinkExtractor(restrict_xpaths='//div[@class="alist"]/ul/li/a',allow = 'shtml$')

再用extract_links()提取到一个列表中。

links= l.extract_links(response)

用.url或.txt实例之。

print(link.url,link.text)

相关文章

  • Scrapy之LinkExtractor2019-03-06

    如何取得列表页中的内容链接呢?方法有很多,但LE应当是最简单的一个了。使用这个工具之前,先引入。 注意,linke...

  • 简单 Scrapy 使用小结

    Scrapy 安装Scrapy pip install scrapy Scrapy Doc 查看Scrapy的文档...

  • scrapy-setting实用配置

    scrapy提升篇之配置 scrapy 是一个异步爬虫框架,使用它,可以屏蔽很多复杂的底层设计,只需要解析下载下来...

  • scrapy框架

    一、scrapy简介 二、scrapy原理 三、scrapy工作流程 四、scrapy框架的创建 五、scrapy...

  • Scrapy笔记

    Scrapy笔记 安装scrapy框架: 安装scrapy:通过pip install scrapy即可安装。 如...

  • scrapy笔记

    1 scrapy的运行原理 参考:Learning Scrapy笔记(三)- Scrapy基础Scrapy爬虫入门...

  • Scrapy基础(一): 安装和使用

    安装 新建scrapy项目 目录 scrapy模板 使用pycharm调试scrapy执行流程 scrapy 终端...

  • python爬虫13:scrapy

    scrapy的结构 scrapy的工作原理 scrapy的用法

  • 下载中间件

    scrapy下载中间件 中间件 是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之...

  • scrapy之CrawlSpider

    简介 class scrapy.spiders.CrawlSpider CrawlSpider是爬取一般网站常用的...

网友评论

      本文标题:Scrapy之LinkExtractor2019-03-06

      本文链接:https://www.haomeiwen.com/subject/rbdxpqtx.html