Scrapinghub试用报告

Scrapinghub试用报告

作者: 㭍葉 | 来源:发表于2017-05-16 18:47 被阅读153次

实验对象：scrapinghubs
实验目的：通过体验爬虫工具，进一步加深对数据检索的认识

目录

scrapinghubs简介
scrapy cloud试用报告

在Scrapyinghub创建工程
本地配置并连接到Scrapinghub
使用scrapy cloud进行数据爬取

portia试用报告

新建portia工程
选择爬取实体
导入scrapy cloud

总结

1.Scrapinghub简介

scrapinghub首页

*简介

scrapinghub 帮助人们将网站转化为数据。
scrapinghub提供基于云的Web爬行平台和数据即服务。

* 以规模爬取网站

Scrapy Cloud是scrapinghub提供的基于云的Web爬行平台，可以方便人们轻松部署抓取工具并按需扩展，无须担心服务器、监控、备份或cron作业。目的是帮助更多的开发人员将网页转化为有价值的数据。
scrapinghub 还提供了丰富的附加组件，例如** protia **使用户无需编写代码，用点击的方式就可以扩展爬虫蜘蛛。其中，Crawlera可以帮助用户绕过反爬虫措施，从而更快的抓取大型网站。爬取的数据可以存储在scrapinghub提供的数据库中，并且可以使用api在应用程序中使用这些数据。

*数据即服务

scrapinghub还有许多网页爬取专家帮助用户爬取数据，用户可以即时访问所需的数据，解决复杂的爬网问题，并且节省时间和金钱。

scrapinghub的产品：

产品

竞争对手：

竞争者

2. scrapy cloud试用报告

2.1在Scrapinghub创建工程

登陆scrapinghub

scrapinghub支持google+账号登陆和Github账号登陆。

welcome

创建一个工程

create project

create

记录Api Key 和 project ID

2.2 本地配置并连接到scrapinghub

安装shub

pip install shub

shub install

shub是Scrapinghub命令行客户端。它允许您部署项目或依赖关系，计划蜘蛛，并检索刮取的数据或日志，而不用离开命令行。

登陆shub

进入要上传到cloud 的工程目录后，登陆shub并输入api key

shub login

login

上传工程并输入project ID

shub deploy

shub deploy

2.3 使用scrapy cloud进行数据爬取

上传成功

选取一个爬虫并执行

run
执行结果

点击items requests log等可以查看爬取详细信息

结果
设置爬取时间间隔

存储到数据库

database

3.portia试用报告

新建portia工程
输入新建爬虫的名字

输入爬取的网址并打开
选择爬取实体
通过点击按钮选取页面中需要爬取的实体
导入scrapy cloud
可以选择导出代码或导入scrapy cloud

4. 总结

在scrapinghub的试用过程中，我得出了以下感悟：

scrapy cloud是一款很方便易用的云端数据爬取工具，可以直观看出数据爬取的相关信息，并且可以很方便存储到数据库中。可以手动设置爬取次数和时间间隔，以及配置文件等。
pordia 可以节省手写代码的时间，但是不适合复杂的数据采集
高级功能还是需要付费才能使用的

相关文章

网友评论

本文标题：Scrapinghub试用报告

本文链接：https://www.haomeiwen.com/subject/baplxxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

搜索引擎

@IT·互联网

程序员

关于我们|服务条款|联系我们|Scrapinghub试用报告|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！