webmagic初级

作者: 沙漏如心 | 来源:发表于2018-03-13 15:23 被阅读0次

本人从事java爬虫开发已经时间不短了，但是一直因为某种原因，一直没有写一些文章来巩固自己所学习的一些知识！

现在打算，写一写自己所知道的东西，来跟大家分享一下！

首先呢，webmagic是一款开源的java爬虫框架，经过时间的沉淀，已经形成了属于自己的良好风格！

具体的内容，可以参考中文网站：http://webmagic.io/

然后呢，我就在这里简单说一下自己的理解，webmagic呢，里面共有5大部分。Spider，scheduler,pipeline,processeror，download.

shceduler，是整个爬虫的url管理器，负责爬虫里面的url地址的分发跟缓存到内存中等一系列功能。

processor，是页面解析器，每当我们拿到一个页面的时候，在这个地方进行页面解析的操作。webmagic在此进行了良好的封装，支持正则，xpath，jsonpath.，jquery解析等多种解析方式，总有一种适合你！

download,是整个爬虫的接受请求，并对数据进行封装的地方，在这里会将我们所传递过去的Reuqest发送出去，并将接受到的reponse进行一些简单的判断，然后重新封装成page，并返回到processer里面，来进行下一步的操作。

pipeline，这个部分呢，是整个爬虫的数据管道，在经过processer进行页面解析完成之后，在这里进行对数据的下一步操作，无论是入库啊，还是保存文件存入硬盘，都是在这个位置进行操作的。

Spider,是整个爬虫的控制器，里面主要负责了针对整个爬虫一些管理方面的东西！

话不多说，直接上代码，在这里，鉴于懒得原因，我们直接使用官网的代码，来进行展示。

首先，第一步，导包，如果你使用了maven，

这个将会是你的最终选择！

否则，这个才是属于你的方式！

接下来，就是代码了：

基础教程

如果有什么疑问，请直接咨询我！

https://blog.csdn.net/qq_36783371 一个大佬写的博客，欢迎去砸鸡蛋！

网友评论

本文标题：webmagic初级

本文链接：https://www.haomeiwen.com/subject/wmszfftx.html

webmagic初级