美文网首页
webmagic高级:(一)

webmagic高级:(一)

作者: 沙漏如心 | 来源:发表于2018-03-16 12:53 被阅读0次

         我们在前面的一些内容里面大概的讲述了一下,我对这个webmagic爬虫框架的一些了解,以及对整个爬虫的一些core 核心源码的一些解析。

          在这里呢,我们开始正式进入webmagic框架的高级部分,也就是说,对整个爬虫一些,常用对象作出以点源码解读。  本章解读的内容呢,就是Reuqest这个对象了!

Reuqets

他在源码中的位置是这个样子的。 

       Request对象呢,在webmagic 中拥有很搞的使用频率,想什么download部件里面出现了,我们创建爬虫的时候也会使用到了啊,我们在解析页面的时候也会使用到了啊。  具体呢,他就是一个发送请求前的封装类,里面呢,会将我们需要发送的请求的一些http协议啊,url啊一些东西封装到里面。

private Stringurl;//我们每次发送请求的url

private String  method;//方法,请求分为get 跟post 就是在这里来进行设定的! 

private HttpRequestBody  requestBody;//请求发送的内容

private Map  extras;//post 或者其他参数

private Map  cookies =new HashMap();//http协议中的cookie

private Map  headers =new HashMap();//http协议中的head

private long priority;//request 的优先级

private boolean binaryContent =false;//默认下载器转成text

private String  charset;//我们获取到的页面的解析时的编码格式

上面呢,就是request里面一些参数,以及我对他们的理解已经使用方式了!剩下得呢,就是他主要的一些方法了!

public Request() {//构造方法

public Request(String url) {//可以传递url 的构造方法

public long getPriority() {//获取request 的优先级

public Reques tsetPriority(long priority) {//设置优先级

public Object getExtra(String key) {//获取附加参数

public Request  putExtra(String key, Object value) {//添加附加参数

public String  getUrl() {//获取url

public Map getExtras() {//得到所有的附加参数

public Request   setExtras(Map extras) {//整体设置附加参数

public Request setUrl(String url) {//设置url

public String   getMethod() {//获得请求方法

public Request  setMethod(String method) {//这只请求方法

public int hashCode() {//获取hashcode

public boolean equals(Object o) {//equals

public Request  addCookie(String name, String value) {//添加cookie

public Request   addHeader(String name, String value) {//添加http请求

public Map   getCookies() {//获取cookie

public Map  getHeaders() {//获取headers

public HttpRequestBody   getRequestBody() {//获取request内容

public void setRequestBody(HttpRequestBody requestBody) {//设置请求内容

public boolean isBinaryContent() {//是不是二进制

public Request  setBinaryContent(boolean binaryContent) {//设置是不是二进制

public Reques   tsetCharset(String charset) {//设置编码格式,也就是你采集页面的编码格式

public StringtoString() {//toString

  上面呢,就是Request的对象的一些参数,跟方法了!

https://blog.csdn.net/qq_36783371  一个大佬写的博客,欢迎去砸鸡蛋!

相关文章

  • webmagic高级:(一)

    我们在前面的一些内容里面大概的讲述了一下,我对这个webmagic爬虫框架的一些了解,以及对整个爬虫的一些...

  • webmagic高级:(五)

    这个呢,也就是我对webmagic 做的最后一篇的内容了,在这个里面我打算说很多的的对象,只不过这些对象内容较为简...

  • webmagic高级:(二)

    这个篇呢,我们主要说这个Page 对象,使用过webmagic 的人呢,都知道Page对象呢。是在dow...

  • webmagic高级:(三)

    这一篇呢,我们看看Site 这个对象! Site 作为Webmagic 的一个重要对象,却永远是呗最先忽略掉的一个...

  • webmagic高级:(四)

    本篇呢,本来打算写一下,pipeline里面的ResultItems对象,但是呢,简单看了一下,里面东西...

  • WebMagic指北

    WebMagic指北 一、快速开始 WebMagic主要包含两个jar包:webmagic-core-{versi...

  • java爬虫基础--webmagic

    java爬虫--webmagic 整理自尚硅谷教学内容 一、webMagic的总体介绍 WebMagic的结构分为...

  • WebMagic+Spring Boot爬取网易云音乐评论

    关于WebMagic WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个...

  • 爬虫框架webmagic与spring boot的结合使用

    1. 爬虫框架webmagic WebMagic是一个简单灵活的爬虫框架。基于WebMagic,你可以快速开发出一...

  • Webmagic+selenium+chromedriver使用

    一、Webmagic总体架构: WebMagic的结构分为Downloader、PageProcessor、Sch...

网友评论

      本文标题:webmagic高级:(一)

      本文链接:https://www.haomeiwen.com/subject/mdnxqftx.html