Python爬虫之学习手册
这两天我整理了一下我爬虫学习的过程,准备在仔细复习一遍
我觉得爬虫分为一下五个部分,我先列出个大纲,以后我会仔细更新里面的内容,在开始之前我们需要先了解一下-->爬虫基础
1.爬
(1)网站爬虫
(1)按照渲染方式
服务端渲染:
客户端渲染:
(2)按照同/异步
(2)APP爬虫
(1)普通接口
(2)加密接口
(3)非HTTP请求参数接口
(4)内容加密接口
2.速
(1)多线/进程
(1)threading
(2)fork
(3)multiprocessing
(4)subprocess
(2)异步爬虫
(1)asyncio
(2)aiohttp
(3)GRErequests
(4)twisted
(5)pyppetter
(6)tomado
(7)pyspider
(8)Scrapy
(3)分布式爬虫
(1)cetrey
(2)huey
(3)rq
(4)RabbitMQ
(5)Kafka
(8)Docker部署
(9)Scrapyd部署
3.析
(1)对返回的内容进行解析
(1)万能的正则表达式
(2)HTML/XML
(3)音视频
(4)RSS
(5)PDF
(6)yaml
(2)对返回的内容进行清洗
(1)phonenumber
(2)xpinyin
(3)levenshtein
(4)nameperser
(5)jiebe
(6)showNLP
(7)Numpy
(8)pandas
(9)NLPIR
(10)NLTK
(11)LTP
(12)THULAC
4.反
(1)User-Agent
(1)设置UA
(2)随机分配UA
(2)封IP
(1)延时请求
(2)代理
(1)免费代理
(2)付费代理
(3)代理池
(4)Tor代理
(5)ADSL
(6)Sooks
(3)验证码
(1)图形验证码
(2)算术验证码
(3)滑动验证码
(4)点触验证码
(5)特殊验证码
(6)手机验证码
(7)微信扫码
(8)其他高级
(4)封账号
(1)尝试非登陆是否可用
(2)更换账号登陆
(3)Cookie池维护
5.存
(1)本地文件存储
(1)存文本
(2)CSV
(3)xls
(4)pdf
(5)json
(6)Markdown
(7)xml
(8)图片
(9)音视频
(2)数据库存储
(1)关系型数据库
(1)MySQL
(2)oracle
(3)SQLserver
(2)非关系型数据库
(1)基于列存储-Hbase
(2)键值对存储-Redis
(3)文档存储-MongoDB
(3)云端存储
(1)七牛云
(2)阿里云
(3)腾讯云
ps:有些东西我也不太熟悉,一起学习一起成长!(我会每天更新)
本文标题:Python爬虫之学习手册
本文链接:https://www.haomeiwen.com/subject/lwxmqqtx.html
网友评论