Python爬虫常用模块【读书笔记-第四章】

作者: 帕瓦罗地瓜 | 来源:发表于2019-01-07 22:49 被阅读31次

bs4
Python常用模块
Python基础-常用内置模块
python 爬虫一招解决SSl 报错SSLError
python网络爬虫基础模块安装
Java面试题：Python中爬虫框架或模块的区别
Python爬虫——爬取贵州省乡镇级行政区划代码（一）
2.常用的爬虫模块及使用方法
Python爬虫常用模块【读书笔记-第四章】
python学习笔记（二）——requests模块

在读《Python3.64网络爬虫实战第二版》

清华大学出版社胡松涛著

2019-01-07

4.1爬虫核心技术

4.1.1实现原理

-网络模块
Https发送请求（可加header和cookies）
代理间隔反爬虫
-过滤模块
熟悉过滤规则re html.parser lxml

4.1.2爬行策略

DOM树状结构
-二叉树深度/广度优先
一般深度优先 BS4 符合人类思维
也有广度优先Pyspider先收集再过滤
-大型或多网站根据大小网页权重分等级
策略有pagerank opic等

4.1.3身份识别

Cookie
辨别身份 session追踪（或要解密）
urllib2库保持登录Cookie py库为Cookielib

4.2 Py3 rullib.request模块

4.3 Py3 logging模块

针对日志代替prin(）；可部分替代Debug

4.3.1logging简述

NOTSET 0--CRITICAL 50 六个默认级别
-函数式参数
-format参数格式化chuan
-其他参数应用进程线程等应用
-datefmt等
logging.basicConfig

4.3.2

自定义模块myLog

4.4 Py3 re模块(正则表达式)

4.5其他有用模块

4.5.1 sys系统参数获取

sys.argv所以命令行参数
sys.exit退出程序返回当前系统平台

4.5.2 time 获取时间信息

time.time()当前时间戳
time.strftime(format[,t])转换格式化时间字符串
time.localtimetime([secs])转换时间字符串
time.sleep([secs])计时器

网友评论

本文标题：Python爬虫常用模块【读书笔记-第四章】

本文链接：https://www.haomeiwen.com/subject/nnnprqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python爬虫常用模块【读书笔记-第四章】

在读《Python3.64网络爬虫实战第二版》

清华大学出版社胡松涛著

4.1爬虫核心技术

4.1.1实现原理

4.1.2爬行策略

4.1.3身份识别

4.2 Py3 rullib.request模块

4.3 Py3 logging模块

4.3.1logging简述

4.3.2

4.4 Py3 re模块(正则表达式)

4.5其他有用模块

4.5.1 sys系统参数获取

4.5.2 time 获取时间信息

相关文章

bs4

Python常用模块

Python基础-常用内置模块

python 爬虫一招解决SSl 报错SSLError

python网络爬虫基础模块安装

Java面试题：Python中爬虫框架或模块的区别

Python爬虫——爬取贵州省乡镇级行政区划代码（一）

2.常用的爬虫模块及使用方法

Python爬虫常用模块【读书笔记-第四章】

python学习笔记（二）——requests模块

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫常用模块【读书笔记-第四章】

在读《Python3.64网络爬虫实战第二版》

清华大学出版社 胡松涛著

4.1爬虫核心技术

4.1.1实现原理

4.1.2爬行策略

4.1.3身份识别

4.2 Py3 rullib.request模块

4.3 Py3 logging模块

4.3.1logging简述

4.3.2

4.4 Py3 re模块(正则表达式)

4.5其他有用模块

4.5.1 sys系统参数获取

4.5.2 time 获取时间信息

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

清华大学出版社胡松涛著