美文网首页python工厂
使用python搭建爬虫项目,基于scrapy+scrapyd+

使用python搭建爬虫项目,基于scrapy+scrapyd+

作者: WeiFong | 来源:发表于2020-04-24 11:01 被阅读0次

    一、简单介绍

    先上一张scrapy的架构图


    image.png

    1.scrapy

    • 爬虫框架

    2.scrapyd

    • 爬虫部署服务(最后爬虫运行的地方)

    3.gerapy

    • 爬虫项目管理工具,基于django的WEB管理界面,结合scrapyd轻松的实现爬虫项目的部署。更多功能的介绍百度知道更多

    二、环境准备

    1.python3.4+(这里不再叙述python的安装,在我的其它文章里有详细介绍. -- 传送门 --)
    2.scrapy

    pip install scrapy
    

    3.scrapyd

    pip install scrapyd
    

    4.gerapy

    pip install scrapyd
    

    三、创建scrapy爬虫项目

    1.创建爬虫项目

    mkdir my_scrapy_project
    cd my_scrapy_project
    scrapy startporject
    

    2.创建一个爬虫

    cd my_scrapy_project
    scrapy genspider spider_name www.baidu.com
    

    spider_name: 爬虫的名字
    www.baidu.com: 你爬取网站的域名
    爬虫的代码会在项目spider目录中,模块的名字就是你刚创建时的名字

    四、创建爬虫项目部署服务

    mkdir scrapyd_server
    cd scrapyd_server
    scrapyd
    

    执行上述命令后scrapyd 服务就已经启动了, 默认连接地址是:http:127.0.0.1:6800 ,启动scrapyd的执行命令在哪个目录下执行,后面部署的代码就会在哪个目录下边,这个要注意

    五、创建并启动爬虫项目管理服务

    mkdir gerapy_server
    cd gerapy_server
    gerapy init
    cd gerapy
    gerapy migrate
    # 初始管理员账号密码,执行后,账号:admin 密码:admin
    gerapy initadmin
    # 启动服务
    gerapy runserver 0.0.0.0:8000
    

    创建成功后,在项目目录下会有一个project目录,这里就是用来存放爬虫项目的,将爬虫项目放到这里即可使用gerapy进行部署了


    image.png

    六、添加爬虫部署主机(就是scrapyd)

    操作步骤


    image.png
    image.png

    七、添加爬虫项目并部署scrapyd

    1.将爬虫项目拷贝到gerapy项目中的project目录中,进入到gerapy的项目管理页面即可看到该项目了,然后点击打包,打包成功后再选择主机部署(这里只有一个,就是我们上面添加的scrapyd部署主机)

    八、调度执行

    1.上述操作都完成后,我们就可以进入到主机管理->调度 对爬虫进行执行了.

    相关文章

      网友评论

        本文标题:使用python搭建爬虫项目,基于scrapy+scrapyd+

        本文链接:https://www.haomeiwen.com/subject/fwsxwhtx.html