本人从事java爬虫开发已经时间不短了,但是一直因为某种原因,一直没有写一些文章来巩固自己所学习的一些知识!
现在打算,写一写自己所知道的东西,来跟大家分享一下!
首先呢,webmagic是一款开源的java爬虫框架,经过时间的沉淀,已经形成了属于自己的良好风格!
具体的内容,可以参考中文网站:http://webmagic.io/
然后呢,我就在这里简单说一下自己的理解,webmagic呢,里面共有5大部分。Spider,scheduler,pipeline,processeror,download.
shceduler,是整个爬虫的url管理器,负责爬虫里面的url地址的分发跟缓存到内存中等一系列功能。
processor,是页面解析器,每当我们拿到一个页面的时候,在这个地方进行页面解析的操作。webmagic在此进行了良好的封装,支持正则,xpath,jsonpath.,jquery解析等多种解析方式,总有一种适合你!
download,是整个爬虫的接受请求,并对数据进行封装的地方,在这里会将我们所传递过去的Reuqest发送出去,并将接受到的reponse进行一些简单的判断,然后重新封装成page,并返回到processer里面,来进行下一步的操作。
pipeline,这个部分呢,是整个爬虫的数据管道,在经过processer进行页面解析完成之后,在这里进行对数据的下一步操作,无论是入库啊,还是保存文件存入硬盘,都是在这个位置进行操作的。
Spider,是整个爬虫的控制器,里面主要负责了针对整个爬虫一些管理方面的东西!
话不多说,直接上代码,在这里,鉴于懒得原因,我们直接使用官网的代码,来进行展示。
首先,第一步,导包,如果你使用了maven,
这个将会是你的最终选择!
否则,这个才是属于你的方式!
接下来,就是代码了:
基础教程如果有什么疑问,请直接咨询我!
https://blog.csdn.net/qq_36783371 一个大佬写的博客,欢迎去砸鸡蛋!
网友评论