美文网首页
1.Scrapy基本流程走通

1.Scrapy基本流程走通

作者: 何阿驼 | 来源:发表于2018-05-31 21:00 被阅读0次

Scrapy基本流程走通

文章仅供学习,如有错误,欢迎指出

创建我们的第一个spider

C:\Users\Alpaca\Desktop\scrapy\1-伯乐在线\firstspider>scrapy genspider myfirstspider www.baidu.com
Created spider 'myfirstspider' using template 'basic' in module:
  firstspider.spiders.myfirstspider

不同种类的spider

运行创建爬虫的命令时,加入-t 我们会发现他有四种不同的模式

常用的有两种 basic和crawl

文章之后会对这两种模板进行介绍

当我们创建完成一个spider的时候

class MyfirstspiderSpider(scrapy.Spider):
    name = 'myfirstspider'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        pass

这里用的是basic模板 ,我会在第三篇博客上介绍crawl的模板(相当方便)

他是继承自spider的

name表示我们蜘蛛的名字 在之后我们启动项目会用到他 比如

scrapy crawl myfirstspider

后面的两个参数其实没什么用,我们完全可以自己定义

start_urls表示你的第一个进入的网站

scrapy shell

我们做爬虫的时候,大致的流程为,爬取页面。得到相应后用selector(xss,xpath,beautifulsoup)等工具对页面筛选。但是我们不可能一边又一遍的去运行我们的程序。这个时候我们可以使用scrapy shell命令,在终端进行 测试

scrapy shell www.baidu.com

小心上当

当我们在用css或者xpath去筛选页面的时候,我们要知道,有一些页面是又js.css3.ajax渲染而成的,因此我们需要得到一个渲染之后的页面,这个时候请使用

view(response)

相关文章

  • 1.Scrapy基本流程走通

    Scrapy基本流程走通 文章仅供学习,如有错误,欢迎指出 创建我们的第一个spider 不同种类的spider ...

  • 1-Django基本流程走通

    Django简介 Django是一个开放源代码的Web应用框架,由python写成,初次发布于2005年7月,并于...

  • Docker+Jenkins+Pipeline实现持续集成(三)

    基本流程走通后,我们还可以为项目增加webhook、文件存档、邮件发送、声音提示等配置 插件推荐 添加gitlab...

  • 基于 kubebuilder 的 operators 开发问题总

    前情提要 之前的文章已经将 kubebuilder 的开发环境和本地调试环境进行了简介和部署实现,流程基本走通,同...

  • 如何使用Data Binding Library(二)

    1.前言 通过上一讲的介绍,可以走通Data Binding基本的流程,了解实现的逻辑。但是仅仅掌握这些是不够的,...

  • mysql相关的面试题 持续更新

    在生产环境中,开发人员开用户流程 平常企业 先确认开发人员的流程是否走通 如走通,确认开发人员做哪些操作 确认从哪...

  • 2014.09.12

    今天工作重点: 1.先把整体的检索流程走通,做一些例子走通,对大体思路考虑清楚。对于一些细节问题,先假设已经可以解...

  • 终于可以走通流程了!

    从两周前可以下单开始,一直在做最后上线前准备。 今天在火车站,正好测试下单,看下取票后的逻辑,这是第一张真正通过网...

  • 1.Django走通流程

    安装 进入终端输入 pip install Django==2.0 等待安装完成,验证是否安装成功,在终端输入 i...

  • Ionic3 拍照上传

    本文主要介绍使用cordova实现拍照上传,走通 “拍照 》预览 》上传 》 下载 ”这个流程。为了方便查看测试结...

网友评论

      本文标题:1.Scrapy基本流程走通

      本文链接:https://www.haomeiwen.com/subject/uzscsftx.html