scrapy-2.1spider基本用法

作者: ddm2014 | 来源:发表于2018-06-17 17:05 被阅读0次

scrapy-2.1spider基本用法
定时器
2019-11-16
11 - 动态数据绑定实现原理
as 基本用法
基本用法
基本用法
基本用法
基本用法
"?.","??","??=","!"基本用法

spider里主要有三个套路。
1.只爬取一个网页。
先上代码

import scrapy
from pyquery import PyQuery as pq

class SmzdmCrawler(scrapy.Spider):
    name = 'smzdm'
    allow_domains = ['smzdm.com']
    start_urls = ['https://faxian.smzdm.com/']

    def parse(self, response):
        res = pq(response.body)
        for item in res('.feed-block-ver').items():
            title = item('.feed-ver-title').text()
            print(title)

pycharm有个terminal，在最下面，在这里输入scrapy crawler 名字，这个名字就是name = 'smzdm'，然后一个简单爬虫就运行起来了

terminal位置

爬虫启动

这里面的套路就是scrapy对单网页爬取造好了轮子，对于不需要特殊处理的请求，比如提供账号密码之类的，就能直接爬取。

对于分析部分，scarpy有自带的解析，但是我用惯了pyquery，自己喜欢就好。

因为内含了request方法，所以在前面要把url定义好，这里就是 start_urls 。
name = 'smzdm'是调用这个爬虫，在多个爬虫时有个分辨。

这几句就是最基本的套路，需要记住。
class Smzdm(scrapy.Spider):
name = 'smzdm'
start_urls = ['https://faxian.smzdm.com/']
def parse(self, response):
还有一句allow_domains用于过滤，过滤不是这个结尾的网址。
allow_domains作用

网友评论

本文标题：scrapy-2.1spider基本用法

本文链接：https://www.haomeiwen.com/subject/detweftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

scrapy-2.1spider基本用法

相关文章