WebCollector源码分析

WebCollector源码分析

作者: with_dream | 来源:发表于2021-01-24 00:37 被阅读0次

WebCollector源码分析
java之网络爬虫介绍(非原创）
闲暇时光，我抓取了一批素材
Android源码分析之RecyclerView源码分析(二)—
Android源码分析之RecyclerView源码分析(一)—
Android源码分析之ListView源码
Kafka源码分析-Content Table
CountDownLatch源码分析
Condition源码分析
ReentrantReadWriteLock源码分析

WebCollector 一个java爬虫框架
2020年1月25日

https://github.com/CrawlScript/WebCollector

WebCollector.jpg

代码框架

基类为Crawler 内部管理DBManager(数据存储)和Fetcher(线程调度)

分为四个流程:

一、内存管理

内部使用java集合和RocksDB
RocksDB 内嵌nosql数据库
所以不支持分布式

二、线程调度

在Fetcher中直接创建FetcherThread数组执行线程

QueueFeeder从队列中通过轮询获取任务存放在FetchQueue中
FetcherThread从FetchQueue中获取任务执行具体操作
FetchQueue使用BlockingQueue应该更好
构成生产消费者模式

然后将任务回调到AutoParseCrawler.extcute中
执行网络请求将请求结果分发给具体的子类实现方法
分发给Visitor的注解方法方法内具体实现由开发者控制

三、网络请求

定义了Requester接口
默认使用Okhttp3实现

总结

使用注解+反射的方式回调方法更加灵活

QueueFeeder/FetcherThread构成生产消费者是个不错的选择

线程控制实现不太好直接定义了50个线程一条线程完成从请求到存储的一条龙服务

相关文章

WebCollector源码分析
WebCollector 一个java爬虫框架2020年1月25日 https://github.com/Craw...
java之网络爬虫介绍(非原创）
文章大纲一、网络爬虫基本介绍二、java常见爬虫框架介绍三、WebCollector实战四、项目源码下载五、参考...
闲暇时光，我抓取了一批素材
webCollector 提供精简的的 API，只需少量代码即可实现一个功能强大的爬虫。webCollector ...
Android源码分析之RecyclerView源码分析(二)—
系列文章：Android源码分析之ListView源码Android源码分析之RecyclerView源码分析(一...
Android源码分析之RecyclerView源码分析(一)—
系列文章：Android源码分析之ListView源码Android源码分析之RecyclerView源码分析(一...
Android源码分析之ListView源码
系列文章：Android源码分析之ListView源码Android源码分析之RecyclerView源码分析(一...
Kafka源码分析-Content Table
Kafka源码分析-网络层-1 Kafka源码分析-网络层-2 Kafka源码分析-网络层-3 Kafka源码分析...
CountDownLatch源码分析
并发源码分析篇： ReentrantLock源码分析 ReentrantReadWriteLock源码分析 Con...
Condition源码分析
并发源码分析篇： ReentrantLock源码分析 ReentrantReadWriteLock源码分析 Con...
ReentrantReadWriteLock源码分析
并发源码分析篇： ReentrantLock源码分析 ReentrantReadWriteLock源码分析 Con...

网友评论

本文标题：WebCollector源码分析

本文链接：https://www.haomeiwen.com/subject/zoavzktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|WebCollector源码分析|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！