美文网首页
java 爬虫 webmagic

java 爬虫 webmagic

作者: wuyuan0127 | 来源:发表于2023-07-09 21:11 被阅读0次

    1.  webmagic   官网地址: http://webmagic.io/

    2.  引入依耐

    <dependency>

    <groupId>us.codecraft</groupId>

    <artifactId>webmagic-core</artifactId>

    <version>0.9.0</version>

    <exclusions>

                <exclusion>

                    <groupId>org.slf4j</groupId>

                    <artifactId>slf4j-log4j12</artifactId>

                </exclusion>

            </exclusions>

    </dependency>

    <dependency><groupId>us.codecraft</groupId>

    <artifactId>webmagic-extension</artifactId>

    <version>0.9.0</version>

    </dependency>

    3. 官网demo

    4. 分布式爬虫

    分布式爬虫架构:

    分布式爬虫注意点  uuid 在多台机器要一致:

    Spider.create(pageProcess)

    .setScheduler(new RedisScheduler())

    .setUUID(UUID.randomUUID().toString()).run();

    相关文章

      网友评论

          本文标题:java 爬虫 webmagic

          本文链接:https://www.haomeiwen.com/subject/njgsudtx.html