美文网首页
requests_utils 功能文档

requests_utils 功能文档

作者: xlliu | 来源:发表于2017-03-21 14:24 被阅读0次

requests_utils.py 文件目录:
call_history_crawler/worker/crawler

proxy_config.py 文件目录:
call_history_crawler/setting

log.py 文件目录:
call_history_crawler/worker

log_config.py 文件目录:
call_history_crawler/setting

功能实现:

  1. Requests proxy pool‘s IP 可用
  2. 相对目标URL proxy pool's IP 可用
  3. 对于不可用的pool's IP 持久化处理
  4. 增加log日志功能及分级处理
  5. 以上所用功能参数可配置

Requests proxy pool‘s IP 可用

相关配置项:  
  `PROXIES_IP_POOLS`
  `IS_IP_AVAILABLE_URL`
  `TRY_TIMES`

PROXIES_IP_POOLS获取ip后,经过IS_IP_AVAILABLE_URL(例 如:www.baidu.com)测试ip是否可用
如果ip可用则继续
如果ip不可用则重试TRY_TIMES(例如: 3)次,如果TRY_TIMES次都不可用则从可用ip列表中移除目标ip并重新获取ip

相对目标URL proxy pool's IP 可用

从可用PROXIES_IP_POOLS获取ip后,经过请求url测试ip是否可用
如果ip可用则继续
如果ip不可用则从可用ip列表中移除目标ip并重新获取ip

对于不可用的pool's IP 持久化处理

借助log日志功能ERROR级别持久化pools中不可用的ip

LEVEL 级别:
    10 :  不可用ip
    20 :  目标url不可用ip

级别输出格式:
    10: "LEVEL: 10  IP: %s"
    20: "LEVEL: 20  IP: %s URL: %s METHOD: %s PARAMS: %s DATA: %s JSON: %s"

增加log日志功能及分级处理

log日志级别:
  DEBUG
  INFO
  WREAING
  ERROR

通过IS_LOGFILE来控制是否持久化log output
通过LOG_DIR来控制输出目录
通过LEVEL来控制打印级别

相关文章

网友评论

      本文标题:requests_utils 功能文档

      本文链接:https://www.haomeiwen.com/subject/ygnwnttx.html