美文网首页
webmagic的一些总结

webmagic的一些总结

作者: KavinDotG | 来源:发表于2017-07-27 10:46 被阅读0次

    1、page.getRequest().getUrl()可以获得当前所爬取的URL是什么
    2、使用xpath获取某个颜色的内容

    xpath("//b[@style='color:black;background-color:#ffff66']/text()").get()
    

    3、可以在
    public void process(Page page) {}方法中添加正则区分URL属于第几轮
    并在main方法中利用isExitWhenComplete()方法判断第一轮spider是否完成采集

                Spider spider = Spider.create(new BaiduKuaiZhao())
                            .addUrl(kwsList().get(0)).thread(50);
                spider.run();
                if (spider.isExitWhenComplete()) {
                      spider.close();
                      System.out.println("spider1已经结束");
                      System.out.println(kzList.size());
                      Spider spider1 = Spider.create(new BaiduKuaiZhao())
                                  .addUrl(kzList.get(0)).thread(5);
                      spider1.run();
                      spider1.close();
                }
          }
    
    

    相关文章

      网友评论

          本文标题:webmagic的一些总结

          本文链接:https://www.haomeiwen.com/subject/zvfzkxtx.html