1 get方法 直接访问即可获得响应数据的静态页面
基于DOM节点元素通过xpath,css选择器或者re正则表达式直接提取相关信息
2 get方法 服务器检查request.header相关字段
重点的几个是UserAgent, referer ,cookie字段 有时需要添加所有字段才能获得响应数据
3 get方法 目标url修改offset limit start str格式的日期(针对日报板块)**
比如下一页的timestamp是上页末尾的timestamp ,有的是基于base64加密
即可实现数据累积式或者增量爬取
4 get方法 目标url的参数经过js处理得到新的url地址
此时需要找到对应的js文件,分析得到新的url地址
5 post方法 需要关键的几个字段 添加data参数后一般可以直接获取
有些是经过加密之后比如hash方法 由于不知道相应hash 参数,就不能实现爬取
6 IP 如果ip被封 可以使用ip池 调用接口每次得到新ramdom的ip 使用即可
7 需要账号登录并验证cookie信息的可以将登录过后的cookie信息提取出来 加在cookie字段
有时需要用到session对象
8 加速乐cookie加密
原理是浏览器会登陆两次网站,第一次服务器会在客户端(浏览器)添加新的cookie
客户端得到cookie后由js执行得到第二段cookie值
客户端需携带这两个cookie才能真正得到服务器响应数据
解决方法: 执行加速乐js脚本,删除替换其中变量或其它字符
处理即可
网友评论