美文网首页
webmagic的一些总结

webmagic的一些总结

作者: KavinDotG | 来源:发表于2017-07-27 10:46 被阅读0次

1、page.getRequest().getUrl()可以获得当前所爬取的URL是什么
2、使用xpath获取某个颜色的内容

xpath("//b[@style='color:black;background-color:#ffff66']/text()").get()

3、可以在
public void process(Page page) {}方法中添加正则区分URL属于第几轮
并在main方法中利用isExitWhenComplete()方法判断第一轮spider是否完成采集

            Spider spider = Spider.create(new BaiduKuaiZhao())
                        .addUrl(kwsList().get(0)).thread(50);
            spider.run();
            if (spider.isExitWhenComplete()) {
                  spider.close();
                  System.out.println("spider1已经结束");
                  System.out.println(kzList.size());
                  Spider spider1 = Spider.create(new BaiduKuaiZhao())
                              .addUrl(kzList.get(0)).thread(5);
                  spider1.run();
                  spider1.close();
            }
      }

相关文章

网友评论

      本文标题:webmagic的一些总结

      本文链接:https://www.haomeiwen.com/subject/zvfzkxtx.html