美文网首页
webmgaic中级(一)

webmgaic中级(一)

作者: 沙漏如心 | 来源:发表于2018-03-13 16:26 被阅读0次

在上一篇文章,我们已经简单介绍爬虫框架webmagic的一些简单情况!

    如有需求,请看https://www.jianshu.com/p/7949c3260aa0

     接下来呢,我就要开始详细的诠释一下,我对webmagic的一些简单理解了。

首先呢,上一章节说道了,pipeline 是webmagic 的数据管道,我们接下来就来说说这个数据管道的问题。

    这个呢,就是我们查看源码里面,webmagic已经提供的一部分,数据出口的方式了,其中两个,是接口,三个是类。 我们就开始简单介绍一下,这些东西。

pipelne

      这个呢,就是我们看到的,pipeline 接口了,里面只有一个方法,就是数据的出口管道的地方了。

文件输出

    这个呢,就是我们看到的Filepipeline里面的东西了,还是一个数据出口。 不过呢,这个好像是直接保存成文件了,构造方法里面就可以简单的看出,传递进来的是一个文件的路径了。 

控制台打印

 这个就比较简单了,控制台打印嘛,有什么看不懂的。

ResultItemCollectorPiepline

这像是把所有解析到的数据都要传递到这个list里面啊,然后由外部调用重新再调用出去!

   如果这些呢,都不太符合你的需求的话,在webmagic-extension里面还存在很多的哦,总有一个适合你!

https://blog.csdn.net/qq_36783371  一个大佬写的博客,欢迎去砸鸡蛋!

相关文章

网友评论

      本文标题:webmgaic中级(一)

      本文链接:https://www.haomeiwen.com/subject/akvzfftx.html