美文网首页
scrapy-2.1spider基本用法

scrapy-2.1spider基本用法

作者: ddm2014 | 来源:发表于2018-06-17 17:05 被阅读0次

spider里主要有三个套路。
1.只爬取一个网页。
先上代码

import scrapy
from pyquery import PyQuery as pq

class SmzdmCrawler(scrapy.Spider):
    name = 'smzdm'
    allow_domains = ['smzdm.com']
    start_urls = ['https://faxian.smzdm.com/']

    def parse(self, response):
        res = pq(response.body)
        for item in res('.feed-block-ver').items():
            title = item('.feed-ver-title').text()
            print(title)

pycharm有个terminal,在最下面,在这里输入scrapy crawler 名字,这个名字就是name = 'smzdm',然后一个简单爬虫就运行起来了


terminal位置
爬虫启动

这里面的套路就是scrapy对单网页爬取造好了轮子,对于不需要特殊处理的请求,比如提供账号密码之类的,就能直接爬取。

对于分析部分,scarpy有自带的解析,但是我用惯了pyquery,自己喜欢就好。

因为内含了request方法,所以在前面要把url定义好,这里就是 start_urls 。
name = 'smzdm'是调用这个爬虫,在多个爬虫时有个分辨。

这几句就是最基本的套路,需要记住。
class Smzdm(scrapy.Spider):
name = 'smzdm'
start_urls = ['https://faxian.smzdm.com/']
def parse(self, response):
还有一句allow_domains用于过滤,过滤不是这个结尾的网址。
allow_domains作用

相关文章

  • scrapy-2.1spider基本用法

    spider里主要有三个套路。1.只爬取一个网页。先上代码 pycharm有个terminal,在最下面,在这里输...

  • 定时器

    setTimeout和clearTimeout基本用法 setInterval和clearInterval基本用法...

  • 2019-11-16

    E战到底DAY14 SUMIF和SUMIFS函数 一.基本用法 SUMIF基本用法 SUMIFS基本用法 SUMI...

  • 11 - 动态数据绑定实现原理

    一、defineProperty 基本用法 1、基本写法: 2、参数 3、descriptor 参数的基本用法 1...

  • as 基本用法

    插件安装 plugin auto import 相当于 eclipse ctrl+o 或者as alt+enter...

  • 基本用法

    Installation 安装 npm install vue vue-server-renderer --sav...

  • 基本用法

    html css js

  • 基本用法

    本地与远程:push 命令会把本地仓库推送到远程仓库(比如gitbub,码云)在push之前要与某个远程仓库建立连...

  • 基本用法

    TensorFlow使用图(graph)表示计算任务,图中的节点被称为op。一个Tensor一般为一个类型化的多维...

  • "?.","??","??=","!"基本用法

    空值合并操作符( ?? )ES2020 const a = b ?? c; // 解释为 如果b为null或un...

网友评论

      本文标题:scrapy-2.1spider基本用法

      本文链接:https://www.haomeiwen.com/subject/detweftx.html