爬虫（二）

作者: 沙漏如心 | 来源:发表于2018-10-16 18:54 被阅读0次

了解爬虫的人，都听过，爬虫技术，反爬虫技术，反反爬虫技术。而在这个里面，httpx协议就占据了很大一部分。

http协议

Accept: 页面的格式。

Accept-Encoding: 是否压缩，所采用的压缩的格式

Accept:Language:语言

Cache-Control:是否缓存

Connection:连接保持时间，

Cookie:本地保存的通关文书。

Host:域名

User-Agent:浏览器的编码

爬虫跟反爬虫：

爬虫端服务器端

啥都不写吧，直接发送请求你谁啊！

加上user-Agent 你从哪来啊！

加上refer 我们的证书呢！

加上cookie 我们的印章呢？

SSL等，技术性跳过就好来，给你出道题

简单的验证码，自己训练就好，复杂的接打码平台吧答案错了啊！

研究算法，找出他们的加密方式！这么进出那么多次啊！

控制频率！怎么老是你啊！

使用代理Ip 挺厉害啊，会分身啊？

多账号升级中-----

换个门进升级中-----

速度太慢，分布式 ............

........ ...........

.......... ..........

........... ..............

没钱了，不弄了！

总感觉没人家写的好，但是吧，咱也不能光复制粘贴。那样子太low了。反正呢，就是这么个意思。

欢迎个为大佬拍砖，热烈欢迎扑克大佬，来进行版权纠正！！！

网友评论

本文标题：爬虫（二）

本文链接：https://www.haomeiwen.com/subject/kpzhzftx.html

爬虫（二）