Python爬虫理论知识

作者: 杰伊_约翰 | 来源:发表于2019-01-27 15:45 被阅读3次

Python爬虫理论知识
3分钟带你了解世界第一语言Python 入门上手也这么简单！
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（二）- urllib爬虫案例
Python网络爬虫（一）- 入门基础
Python网络爬虫（四）- XPath
Python网络爬虫（三）- 爬虫进阶
Python网络爬虫（六）- Scrapy框架
Python网络爬虫（五）- Requests和Beautifu

基本流程

1.分析网站，寻找目标url

2.分析目标url参数（get/post）
（1）get请求参数部分：把？后面的参数写在字典中，然后使用parse.urlencode（字典参数），得到了url编码格式的字符串

（2）post请求参数部分：处理表单数据，将表单数据放在字典中，使用parse.urlencode（字典参数），得到了url编码格式的字符串，
最后使用encode方法将字符串转为bytes类型。

3.发起请求
（1）设置请求头，添加UA（cookie，referer）
（2）实例化一个Request对象（request.Request）
（3）根据实例化的Request对象，使用request.urlopen（）方法发起请求

4.处理相应结果
（1）Ajax请求得到的一般是json数据，使用json模块处理使用json.loads将json字符串，转为python数据类型
（2）对于非结果化数据（数据在html页面中），使用re正则模块处理提取处理（xpath，BeautifulSoup，pyquery）
（3）如果还有其他url发起请求，则继续发起请求

5.数据持久化
（1）文件存储（json，csv，txt）
（2）数据库存储（mysql，mongodb，redis）