美文网首页
frontera——最好的scrapy-分布式框架

frontera——最好的scrapy-分布式框架

作者: xsren2019 | 来源:发表于2019-11-26 16:01 被阅读0次

注意:Frontera对Windows的兼容性不好,Windows开发者慎用

因为公司项目需求,最近在学习 portia

啥是 portia 呢?
portia 是 scrapinghub 团队开源的可视化爬虫框架。有了这个框架,一个不会编程的人直接通过鼠标点击就可以实现网页采集。他们公司已经有了成熟的产品scrapinghub, 功能很强大,可以尝试一下。

在调研 portia 的时候,偶然阅读 big data at scrapinghub 这篇文章,了解到了 frontena 。frontera 同样是 scrapinghub 团队的作品——一个功能强大、可扩展性好、已经在生产环境中得到验证、开源的分布式爬虫框架。有种相见恨晚的感觉。

为什么说是最好的scrapy 分布式框架???

通过搜索我发现,scrapy 的分布式框架除了 frontera 还有 scrapy-cluster scrapy-redis ,综合对比以后发现 frontera 要优于另外两个。

它支持这些强大的功能:
  1. 面向在线处理,
  1. 分布式爬虫和后端架构,
  2. 可定制抓取策略,
  3. Scrapy易于集成,
  4. 集成 SQLAlchemy 支持关系型数据库(Mysql, PostgreSQL, sqlite 等等), 集成 HBase 非常好得支持键值对数据库,
  5. 使用 ZeroMQ and Kafka 为分布式爬虫实现消息总线,
  6. 使用 Graph Manager 创建伪站点地图和模拟抓取,进行精确抓取逻辑调优。
  7. 透明的传输层概念(message bus)和通信协议,
  8. 纯 Python 实现 。
  9. 支持 Python 3 。
而且社区活跃度很高

看图说话。


frontera github.png
而且在生产环境得到验证

看图说话。


frontera 生产环境

功能这么强大,有没有心动的感觉,感觉用起来吧。

相关文章

  • frontera——最好的scrapy-分布式框架

    注意:Frontera对Windows的兼容性不好,Windows开发者慎用 因为公司项目需求,最近在学习 por...

  • frontera——最好的scrapy 分布式框架

    注意:Frontera对Windows的兼容性不好,Windows开发者慎用 因为公司项目需求,最近在学习 por...

  • scrapy- 分布式爬虫框架搭建

    1分布式使用 2 分布式爬虫开发的步骤: 注:如果想将 Scrapy 改造成分布式,就会有两个问题必须要解决①re...

  • kafka 初体验

    最近学习了一个分布式爬虫系统 Frontera,其中通信载体使用的是 kafka。之前只是听说 kafka 很 ?...

  • kafka-初体验

    最近学习了一个分布式爬虫系统 Frontera,其中通信载体使用的是 kafka。之前只是听说 kafka 很 ?...

  • 分布式框架

    分布式框架思考 分布式框架需要考虑的问题:分布式锁、分布式事务、分布式存储、分布式调度、分布式计算、容器部署(通信...

  • 分布式计算框架Spark

    分布式计算框架Spark是什么 分布式计算框架Spark是什么?快速的分布式计算框架 官网Spark 和 MapR...

  • Apache Hadoop

    Hadoop = HDFS(分布式⽂件系统) + MapReduce(分布式计算框架) + Yarn(资源协调框架...

  • Java-分布式框架-redis-4

    redis分布式锁redisson 分布式框架中,普通锁是满足不了业务需求的,分布式锁在分布式框架中不可缺失;比如...

  • Dubbo分布式服务框架原理(一)设计和实现及关注问题点

    Dubbo关注点 关注问题 分布式服务框架原理(一)设计和实现 1.分布式服务框架设计 分布式服务框架一般可以分为...

网友评论

      本文标题:frontera——最好的scrapy-分布式框架

      本文链接:https://www.haomeiwen.com/subject/rdfywctx.html