美文网首页
webmagic高级:(三)

webmagic高级:(三)

作者: 沙漏如心 | 来源:发表于2018-03-19 10:52 被阅读0次

    这一篇呢,我们看看Site 这个对象! Site 作为Webmagic 的一个重要对象,却永远是呗最先忽略掉的一个对象,但是呢,如果想要高效的利用webmagic 这个框架呢,他呢也是一个不容忽视的存在!

    Site

      他在核心源码core包中的位置是这个样子的! 

    private String domain;//有点不明所以

    private String  userAgent;//http协议中的UserAgent

    private MapdefaultCookies =new LinkedHashMap();//默认cookie

    private Mapcookies =new HashMap>();//cookie

    private String charset;//编码格式

    private int sleepTime =5000;//休眠时间

    private int retryTimes =0;//重试时间

    private int cycleRetryTimes =0;//重试此时

    private int retrySleepTime =1000;//重试休眠时间

    private int timeOut =5000;//默认关闭时间

    private static final SetDEFAULT_STATUS_CODE_SET =new HashSet();//状态码集合

    private Set acceptStatCode =DEFAULT_STATUS_CODE_SET;//默认成功的网页返回码

    private Mapheaders =new HashMap();//http协议

    private boolean useGzip =true;//默认使用zip解码

    private boolean disableCookieManagement =false;//需不需要使用cookie管理者

    随着,越来越深入,越来越感觉自己什么都不知道了,很多东西,都是一知半解!

    或者说,自己在这个框架里面的很多功能都没有完全利用,感觉像是自己第一次知道webmagic 框架还有这个功能啊!

    public static Siteme() {//获取Site本身,感觉跟getSite这个方法有点冲突啊

    public Site addCookie(String name, String value) {//添加cookie

    public Site addCookie(String domain, String name, String value) {//添加cookie跟domain

    public Map getCookies() {获取cookie

    public Map getAllCookies() {//获取所有的cookie

    public String  getUserAgent() {//获取UserAgent

    public String getDomain() {//获得域名

    public Site setDomain(String domain) {//设置域名

    public Site  setCharset(String charset) {//设置编码格式

    public String getCharset() {//获取编码格式

    public int getTimeOut() {//获取超时时间

    public Site setTimeOut(int timeOut) {//设置超时时间

    public Site setAcceptStatCode(Set acceptStatCode) {//设置接受状态码

    public Set getAcceptStatCode() {//获取接受状态码

    public Site setSleepTime(int sleepTime) {//设置休眠时间

    public int getSleepTime() {////获取休眠时间

    public int getRetryTimes() {//获取重试次数

    public Map getHeaders() {//获取head

    public Site  addHeader(String key, String value) {添加http协议

    public Site  setRetryTimes(int retryTimes) {//设置重试次数

    public int getCycleRetryTimes() {//获取重试时间

    public Site  setCycleRetryTimes(int cycleRetryTimes) {//设置重试时间

    public boolean isUseGzip() {//是否需要使用解压

    public int getRetrySleepTime() {//获取重试休眠时间

    public Site setRetrySleepTime(int retrySleepTime) {//设置重试休眠时间

    public Site setUseGzip(boolean useGzip) {//设置是否需要对服务器返回的数据进行解压

    public boolean isDisableCookieManagement() {//是否使用了cookie管理

    public Site setDisableCookieManagement(boolean disableCookieManagement) {//设置是否使用cookie管理者

    public Task  toTask() {//转成Task

    public String getUUID() {//获取Spider 也就是整个爬虫的uuid

    public Site getSite() {//获得本身,搞不清楚能干嘛

      上面呢,就是我对Site 这个对象的方法的一些了解了,欢迎各位大佬光临指点!

    https://blog.csdn.net/qq_36783371  一个大佬写的博客,欢迎去砸鸡蛋!

    相关文章

      网友评论

          本文标题:webmagic高级:(三)

          本文链接:https://www.haomeiwen.com/subject/fjnxqftx.html