美文网首页
Python爬虫常用模块【读书笔记-第四章】

Python爬虫常用模块【读书笔记-第四章】

作者: 帕瓦罗地瓜 | 来源:发表于2019-01-07 22:49 被阅读31次

在读《Python3.64网络爬虫实战第二版》

清华大学出版社 胡松涛著

2019-01-07

4.1爬虫核心技术

4.1.1实现原理

-网络模块
Https发送请求(可加header和cookies)
代理 间隔反爬虫
-过滤模块
熟悉过滤规则re html.parser lxml

4.1.2爬行策略

DOM树状结构
-二叉树深度/广度优先
一般深度优先 BS4 符合人类思维
也有广度优先Pyspider先收集再过滤
-大型或多网站 根据大小 网页权重分等级
策略有pagerank opic等

4.1.3身份识别

Cookie
辨别身份 session追踪 (或要解密)
urllib2库保持登录Cookie py库为Cookielib

4.2 Py3 rullib.request模块

4.3 Py3 logging模块

针对日志 代替prin();可部分替代Debug

4.3.1logging简述

NOTSET 0--CRITICAL 50 六个默认级别
-函数式参数
-format参数格式化chuan
-其他参数应用 进程线程等应用
-datefmt等
logging.basicConfig

4.3.2

自定义模块myLog

4.4 Py3 re模块(正则表达式)

4.5其他有用模块

4.5.1 sys系统参数获取

sys.argv所以命令行参数
sys.exit退出程序 返回当前系统平台

4.5.2 time 获取时间信息

time.time()当前时间戳
time.strftime(format[,t])转换格式化时间字符串
time.localtimetime([secs])转换时间字符串
time.sleep([secs])计时器

相关文章

网友评论

      本文标题:Python爬虫常用模块【读书笔记-第四章】

      本文链接:https://www.haomeiwen.com/subject/nnnprqtx.html