在读《Python3.64网络爬虫实战第二版》
清华大学出版社 胡松涛著
2019-01-07
4.1爬虫核心技术
4.1.1实现原理
-网络模块
Https发送请求(可加header和cookies)
代理 间隔反爬虫
-过滤模块
熟悉过滤规则re html.parser lxml
4.1.2爬行策略
DOM树状结构
-二叉树深度/广度优先
一般深度优先 BS4 符合人类思维
也有广度优先Pyspider先收集再过滤
-大型或多网站 根据大小 网页权重分等级
策略有pagerank opic等
4.1.3身份识别
Cookie
辨别身份 session追踪 (或要解密)
urllib2库保持登录Cookie py库为Cookielib
4.2 Py3 rullib.request模块
4.3 Py3 logging模块
针对日志 代替prin();可部分替代Debug
4.3.1logging简述
NOTSET 0--CRITICAL 50 六个默认级别
-函数式参数
-format参数格式化chuan
-其他参数应用 进程线程等应用
-datefmt等
logging.basicConfig
4.3.2
自定义模块myLog
4.4 Py3 re模块(正则表达式)
4.5其他有用模块
4.5.1 sys系统参数获取
sys.argv所以命令行参数
sys.exit退出程序 返回当前系统平台
4.5.2 time 获取时间信息
time.time()当前时间戳
time.strftime(format[,t])转换格式化时间字符串
time.localtimetime([secs])转换时间字符串
time.sleep([secs])计时器
网友评论