美文网首页
实现通用爬虫

实现通用爬虫

作者: 小袋鼠cf | 来源:发表于2019-01-04 16:44 被阅读0次

    创建爬虫文件的方式
    scrapy genspider -t crawl 爬虫文件名 域

    爬虫文件继承的类CrawlSpider

    rules:里面存放的是rule的对像(元组或者列表)

    Rule:自定义提取规则,提取到的url,回自动构建request对像,
    设置回调函数解析相应结果,设置是否需要跟进(进一步提取url连接)
    process_links:拦截rule规则提取的url,返回的是一个列表,列表存放的是link对象

    LinkExtractor:是一个对象,设置提取url的规则

    注意:rules中如果没有设置callback回调,follow默认为true
    注意:一定不要去实现parse方法
    注意:要想处理起始url的相应结果,需要重写parse_start_url方法

    什么时候适合使用crawlspider?
    一般网页结构比较简单,页面大多是静态页面

    相关文章

      网友评论

          本文标题:实现通用爬虫

          本文链接:https://www.haomeiwen.com/subject/tldkrqtx.html