美文网首页
java 爬虫 webmagic

java 爬虫 webmagic

作者: wuyuan0127 | 来源:发表于2023-07-09 21:11 被阅读0次

1.  webmagic   官网地址: http://webmagic.io/

2.  引入依耐

<dependency>

<groupId>us.codecraft</groupId>

<artifactId>webmagic-core</artifactId>

<version>0.9.0</version>

<exclusions>

            <exclusion>

                <groupId>org.slf4j</groupId>

                <artifactId>slf4j-log4j12</artifactId>

            </exclusion>

        </exclusions>

</dependency>

<dependency><groupId>us.codecraft</groupId>

<artifactId>webmagic-extension</artifactId>

<version>0.9.0</version>

</dependency>

3. 官网demo

4. 分布式爬虫

分布式爬虫架构:

分布式爬虫注意点  uuid 在多台机器要一致:

Spider.create(pageProcess)

.setScheduler(new RedisScheduler())

.setUUID(UUID.randomUUID().toString()).run();

相关文章

网友评论

      本文标题:java 爬虫 webmagic

      本文链接:https://www.haomeiwen.com/subject/njgsudtx.html