美文网首页
20190903爬虫基本原理总结

20190903爬虫基本原理总结

作者: 6bd9f7257faf | 来源:发表于2019-09-28 14:31 被阅读0次

一、HTML原理

HTML请求过程图示

二、网页基本原理

         对于爬虫程序员来说,只要记住网页基本构成:HTML,CSS和JavaScript。

          Html相当于骨架,Css相当于皮肤,JavaScript相当于肌肉

三、爬虫基本原理

      1、基本流程

基本流程图示

      2、注意事项

          2.1 首先用浏览器打开目标网站,进入开发者工具模式,分析网页结构或规则

         2.2 获取网页源代码后,使用status查看状态码验证读取网页是否成功

         2.3 明确要抓什么数据: Html代码、Json字符串(api接口,手机端大部分是这种数据格式)、二进制文件(图片,音频,视频等)、其他拓展名文件(css,JavaScript,各种配置文件等)

         2.4 Javascript渲染页面处理:分析ajax接口,或使用selenium等库实现模拟JavaScript渲染

         2.5 cookies在浏览器端,在访问动态网页时候浏览器会自动附带上它发送给服务器,服务器通过识别cookies并鉴定其是哪个用户,判断其是否登录状态,然后返回对应的响应

          2.6 爬虫代理,突破自身IP访问限制,访问团体内部资源,提高访问速度,隐藏真实IP (防止被封禁或输入验证码登录)

          2.7 检查robots.txt,在网站根目录后面加入‘/robots.txt’检查。 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

相关文章

  • 20190903爬虫基本原理总结

    一、HTML原理 二、网页基本原理 对于爬虫程序员来说,只要记住网页基本构成:HTML,CSS和JavaScri...

  • Python3 爬虫介绍

    爬虫的基本原理 所谓爬虫就是一个自动化数据采集工具,你只要告诉它要采集哪些数据。其背后的基本原理就是爬虫程序向目标...

  • 学渣讲爬虫之Python爬虫从入门到出门(第一讲)

    目录 学渣讲爬虫之Python爬虫从入门到出门第一讲 目录 爬虫的常用形式 爬虫的基本原理 前期准备 简单爬虫 爬...

  • 2018-12-24 网页爬虫第一天

    Python爬虫从入门到出门 第一天 1.1 目录 1.1 目录 1.2 爬虫的常用形式 1.3 爬虫的基本原理 ...

  • Python 爬虫_动态网页抓取

    挖坑____ 理解静态网页 理解动态网页 爬虫的基本原理 爬虫与网页内容之间的关系 使用爬虫抓取动态网页内容

  • 【Python】Python3网络爬虫实战-15、爬虫基础:HT

    在写爬虫之前,还是需要了解一些爬虫的基础知识,如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies ...

  • python爬虫day-4(爬虫的基本原理)

    个人学习笔记,方便自己查阅,仅供参考,欢迎交流 爬虫的基本原理 A.爬虫概述 爬虫就是获取网页并提取和保存信息的自...

  • 爬虫基本原理

    爬虫基本原理 一、爬虫是什么? 百度百科和维基百科对网络爬虫的定义:简单来说爬虫就是抓取目标网站内容的工具,一般是...

  • 20190903

    外院的基督徒为享受神在自然界的普遍恩典而感谢神。 最难的是进到黑暗的至圣所在金香坛的祷告。希伯来书四:16 【来4...

  • 20190903

    《烦恼源于想的太多做的太少》 昨天早上开会,制定新的工作计划和措施。很多人面对自己的目标,慨叹2019已经过来大半...

网友评论

      本文标题:20190903爬虫基本原理总结

      本文链接:https://www.haomeiwen.com/subject/ndzcyctx.html