这一篇呢,我们看看Site 这个对象! Site 作为Webmagic 的一个重要对象,却永远是呗最先忽略掉的一个对象,但是呢,如果想要高效的利用webmagic 这个框架呢,他呢也是一个不容忽视的存在!
Site他在核心源码core包中的位置是这个样子的!
private String domain;//有点不明所以
private String userAgent;//http协议中的UserAgent
private MapdefaultCookies =new LinkedHashMap();//默认cookie
private Mapcookies =new HashMap>();//cookie
private String charset;//编码格式
private int sleepTime =5000;//休眠时间
private int retryTimes =0;//重试时间
private int cycleRetryTimes =0;//重试此时
private int retrySleepTime =1000;//重试休眠时间
private int timeOut =5000;//默认关闭时间
private static final SetDEFAULT_STATUS_CODE_SET =new HashSet();//状态码集合
private Set acceptStatCode =DEFAULT_STATUS_CODE_SET;//默认成功的网页返回码
private Mapheaders =new HashMap();//http协议
private boolean useGzip =true;//默认使用zip解码
private boolean disableCookieManagement =false;//需不需要使用cookie管理者
随着,越来越深入,越来越感觉自己什么都不知道了,很多东西,都是一知半解!
或者说,自己在这个框架里面的很多功能都没有完全利用,感觉像是自己第一次知道webmagic 框架还有这个功能啊!
public static Siteme() {//获取Site本身,感觉跟getSite这个方法有点冲突啊
public Site addCookie(String name, String value) {//添加cookie
public Site addCookie(String domain, String name, String value) {//添加cookie跟domain
public Map getCookies() {获取cookie
public Map getAllCookies() {//获取所有的cookie
public String getUserAgent() {//获取UserAgent
public String getDomain() {//获得域名
public Site setDomain(String domain) {//设置域名
public Site setCharset(String charset) {//设置编码格式
public String getCharset() {//获取编码格式
public int getTimeOut() {//获取超时时间
public Site setTimeOut(int timeOut) {//设置超时时间
public Site setAcceptStatCode(Set acceptStatCode) {//设置接受状态码
public Set getAcceptStatCode() {//获取接受状态码
public Site setSleepTime(int sleepTime) {//设置休眠时间
public int getSleepTime() {////获取休眠时间
public int getRetryTimes() {//获取重试次数
public Map getHeaders() {//获取head
public Site addHeader(String key, String value) {添加http协议
public Site setRetryTimes(int retryTimes) {//设置重试次数
public int getCycleRetryTimes() {//获取重试时间
public Site setCycleRetryTimes(int cycleRetryTimes) {//设置重试时间
public boolean isUseGzip() {//是否需要使用解压
public int getRetrySleepTime() {//获取重试休眠时间
public Site setRetrySleepTime(int retrySleepTime) {//设置重试休眠时间
public Site setUseGzip(boolean useGzip) {//设置是否需要对服务器返回的数据进行解压
public boolean isDisableCookieManagement() {//是否使用了cookie管理
public Site setDisableCookieManagement(boolean disableCookieManagement) {//设置是否使用cookie管理者
public Task toTask() {//转成Task
public String getUUID() {//获取Spider 也就是整个爬虫的uuid
public Site getSite() {//获得本身,搞不清楚能干嘛
上面呢,就是我对Site 这个对象的方法的一些了解了,欢迎各位大佬光临指点!
https://blog.csdn.net/qq_36783371 一个大佬写的博客,欢迎去砸鸡蛋!
网友评论