了解爬虫的人,都听过,爬虫技术,反爬虫技术,反反爬虫技术。而在这个里面,httpx协议就占据了很大一部分。
http协议Accept: 页面的格式。
Accept-Encoding: 是否压缩,所采用的压缩的格式
Accept:Language:语言
Cache-Control:是否缓存
Connection:连接保持时间,
Cookie:本地保存的通关文书。
Host:域名
User-Agent:浏览器的编码
爬虫跟反爬虫:
爬虫端 服务器端
啥都不写吧,直接发送请求 你谁啊!
加上user-Agent 你从哪来啊!
加上refer 我们的证书呢!
加上cookie 我们的印章呢?
SSL等,技术性跳过就好 来,给你出道题
简单的验证码,自己训练就好,复杂的接打码平台吧 答案错了啊!
研究算法,找出他们的加密方式! 这么进出那么多次啊!
控制频率! 怎么老是你啊!
使用代理Ip 挺厉害啊,会分身啊?
多账号 升级中-----
换个门进 升级中-----
速度太慢,分布式 ............
........ ...........
.......... ..........
........... ..............
没钱了,不弄了!
总感觉没人家写的好,但是吧,咱也不能光复制粘贴。那样子太low了。 反正呢,就是这么个意思。
欢迎个为大佬拍砖,热烈欢迎扑克大佬,来进行版权纠正!!!
网友评论