美文网首页
webmagic高级:(一)

webmagic高级:(一)

作者: 沙漏如心 | 来源:发表于2018-03-16 12:53 被阅读0次

             我们在前面的一些内容里面大概的讲述了一下,我对这个webmagic爬虫框架的一些了解,以及对整个爬虫的一些core 核心源码的一些解析。

              在这里呢,我们开始正式进入webmagic框架的高级部分,也就是说,对整个爬虫一些,常用对象作出以点源码解读。  本章解读的内容呢,就是Reuqest这个对象了!

    Reuqets

    他在源码中的位置是这个样子的。 

           Request对象呢,在webmagic 中拥有很搞的使用频率,想什么download部件里面出现了,我们创建爬虫的时候也会使用到了啊,我们在解析页面的时候也会使用到了啊。  具体呢,他就是一个发送请求前的封装类,里面呢,会将我们需要发送的请求的一些http协议啊,url啊一些东西封装到里面。

    private Stringurl;//我们每次发送请求的url

    private String  method;//方法,请求分为get 跟post 就是在这里来进行设定的! 

    private HttpRequestBody  requestBody;//请求发送的内容

    private Map  extras;//post 或者其他参数

    private Map  cookies =new HashMap();//http协议中的cookie

    private Map  headers =new HashMap();//http协议中的head

    private long priority;//request 的优先级

    private boolean binaryContent =false;//默认下载器转成text

    private String  charset;//我们获取到的页面的解析时的编码格式

    上面呢,就是request里面一些参数,以及我对他们的理解已经使用方式了!剩下得呢,就是他主要的一些方法了!

    public Request() {//构造方法

    public Request(String url) {//可以传递url 的构造方法

    public long getPriority() {//获取request 的优先级

    public Reques tsetPriority(long priority) {//设置优先级

    public Object getExtra(String key) {//获取附加参数

    public Request  putExtra(String key, Object value) {//添加附加参数

    public String  getUrl() {//获取url

    public Map getExtras() {//得到所有的附加参数

    public Request   setExtras(Map extras) {//整体设置附加参数

    public Request setUrl(String url) {//设置url

    public String   getMethod() {//获得请求方法

    public Request  setMethod(String method) {//这只请求方法

    public int hashCode() {//获取hashcode

    public boolean equals(Object o) {//equals

    public Request  addCookie(String name, String value) {//添加cookie

    public Request   addHeader(String name, String value) {//添加http请求

    public Map   getCookies() {//获取cookie

    public Map  getHeaders() {//获取headers

    public HttpRequestBody   getRequestBody() {//获取request内容

    public void setRequestBody(HttpRequestBody requestBody) {//设置请求内容

    public boolean isBinaryContent() {//是不是二进制

    public Request  setBinaryContent(boolean binaryContent) {//设置是不是二进制

    public Reques   tsetCharset(String charset) {//设置编码格式,也就是你采集页面的编码格式

    public StringtoString() {//toString

      上面呢,就是Request的对象的一些参数,跟方法了!

    https://blog.csdn.net/qq_36783371  一个大佬写的博客,欢迎去砸鸡蛋!

    相关文章

      网友评论

          本文标题:webmagic高级:(一)

          本文链接:https://www.haomeiwen.com/subject/mdnxqftx.html