Scrapinghub试用报告

作者: 㭍葉 | 来源:发表于2017-05-16 18:47 被阅读153次

    实验对象:scrapinghubs
    实验目的:通过体验爬虫工具,进一步加深对数据检索的认识

    目录
    1. scrapinghubs简介
    2. scrapy cloud试用报告
    • 在Scrapyinghub创建工程
    • 本地配置并连接到Scrapinghub
    • 使用scrapy cloud进行数据爬取
    1. portia试用报告
    • 新建portia工程
    • 选择爬取实体
    • 导入scrapy cloud
    1. 总结

    1.Scrapinghub简介

    scrapinghub首页

    *简介

    scrapinghub 帮助人们将网站转化为数据。
    scrapinghub提供基于云的Web爬行平台和数据即服务。

    * 以规模爬取网站

    Scrapy Cloud是scrapinghub提供的基于云的Web爬行平台,可以方便人们轻松部署抓取工具并按需扩展,无须担心服务器、监控、备份或cron作业。目的是帮助更多的开发人员将网页转化为有价值的数据。
    scrapinghub 还提供了丰富的附加组件,例如** protia **使用户无需编写代码,用点击的方式就可以扩展爬虫蜘蛛。其中,Crawlera可以帮助用户绕过反爬虫措施,从而更快的抓取大型网站。爬取的数据可以存储在scrapinghub提供的数据库中,并且可以使用api在应用程序中使用这些数据。

    *数据即服务

    scrapinghub还有许多网页爬取专家帮助用户爬取数据,用户可以即时访问所需的数据,解决复杂的爬网问题,并且节省时间和金钱。

    scrapinghub的产品:
    产品
    竞争对手:
    竞争者

    2. scrapy cloud试用报告

    2.1在Scrapinghub创建工程

    登陆scrapinghub

    scrapinghub支持google+账号登陆和Github账号登陆。


    welcome
    创建一个工程
    create project
    create

    记录Api Key 和 project ID

    2.2 本地配置并连接到scrapinghub

    安装shub

    pip install shub
    
    shub install

    shub是Scrapinghub命令行客户端。 它允许您部署项目或依赖关系,计划蜘蛛,并检索刮取的数据或日志,而不用离开命令行。

    登陆shub

    进入要上传到cloud 的工程目录后,登陆shub并输入api key

    shub login
    
    login

    上传工程并输入project ID

    shub deploy
    

    shub deploy

    2.3 使用scrapy cloud进行数据爬取

    上传成功



    选取一个爬虫并执行



    run
    执行结果

    点击items requests log等可以查看爬取详细信息


    结果
    设置爬取时间间隔

    存储到数据库



    database

    3.portia试用报告

    • 新建portia工程
      输入新建爬虫的名字



      输入爬取的网址并打开


    • 选择爬取实体
      通过点击按钮选取页面中需要爬取的实体


    • 导入scrapy cloud
      可以选择导出代码或导入scrapy cloud


    4. 总结

    在scrapinghub的试用过程中,我得出了以下感悟:

    • scrapy cloud是一款很方便易用的云端数据爬取工具,可以直观看出数据爬取的相关信息,并且可以很方便存储到数据库中。可以手动设置爬取次数和时间间隔,以及配置文件等。
    • pordia 可以节省手写代码的时间,但是不适合复杂的数据采集
    • 高级功能还是需要付费才能使用的

    相关文章

      网友评论

        本文标题:Scrapinghub试用报告

        本文链接:https://www.haomeiwen.com/subject/baplxxtx.html