20190903爬虫基本原理总结

作者: 6bd9f7257faf | 来源:发表于2019-09-28 14:31 被阅读0次

20190903爬虫基本原理总结
Python3 爬虫介绍
学渣讲爬虫之Python爬虫从入门到出门（第一讲）
2018-12-24 网页爬虫第一天
Python 爬虫_动态网页抓取
【Python】Python3网络爬虫实战-15、爬虫基础：HT
python爬虫day-4（爬虫的基本原理）
爬虫基本原理
20190903
20190903

一、HTML原理

HTML请求过程图示

二、网页基本原理

对于爬虫程序员来说，只要记住网页基本构成：HTML,CSS和JavaScript。

Html相当于骨架，Css相当于皮肤，JavaScript相当于肌肉

三、爬虫基本原理

1、基本流程

基本流程图示

2、注意事项

2.1 首先用浏览器打开目标网站，进入开发者工具模式，分析网页结构或规则

2.2 获取网页源代码后，使用status查看状态码验证读取网页是否成功

2.3 明确要抓什么数据： Html代码、Json字符串（api接口，手机端大部分是这种数据格式）、二进制文件（图片，音频，视频等）、其他拓展名文件（css，JavaScript，各种配置文件等）

2.4 Javascript渲染页面处理：分析ajax接口，或使用selenium等库实现模拟JavaScript渲染

2.5 cookies在浏览器端，在访问动态网页时候浏览器会自动附带上它发送给服务器，服务器通过识别cookies并鉴定其是哪个用户，判断其是否登录状态，然后返回对应的响应

2.6 爬虫代理，突破自身IP访问限制，访问团体内部资源，提高访问速度，隐藏真实IP （防止被封禁或输入验证码登录）

2.7 检查robots.txt，在网站根目录后面加入‘/robots.txt’检查。 Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。