美文网首页
浏览器的运行原理和网络爬虫

浏览器的运行原理和网络爬虫

作者: 敏姐姐_e9d0 | 来源:发表于2019-01-29 22:25 被阅读0次

浏览器的运行原理

用户界面

- 包括地址栏、后退/前进按钮、书签目录等,也就是你所看到的除了用来显示你所请求页面的主窗口之外的其他部分

浏览器引擎

- 用来查询及操作渲染引擎的接口

渲染引擎

- 用来显示请求的内容,例如,如果请求内容为html,它负责解析html及css,并将解析后的结果显示出来

网络

- 用来完成网络调用,例如http请求,它具有平台无关的接口,可以在不同平台上工作

UI 后端

- 用来绘制类似组合选择框及对话框等基本组件,具有不特定于某个平台的通用接口,底层使用操作系统的用户接口

JS解释器

- 用来解释执行JS代码

数据存储

- 属于持久层,浏览器需要在硬盘中保存类似cookie的各种数据,HTML5定义了web database技术,这是一种轻量级完整的客户端


image.png

网络爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。
网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份


爬虫的基本框架

在网络爬虫的系统框架中,主过程由控制器解析器资源库三部分组成。

1.控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。
2.解析器的主要工作是下载网页,进行页面的处理,主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成。
3.资源库是用来存放下载到的网页资源,一般都采用大型的数据库存储,如Oracle数据库,并对其建立索引。

相关文章

  • 浏览器的运行原理和网络爬虫

    浏览器的运行原理 用户界面 - 包括地址栏、后退/前进按钮、书签目录等,也就是你所看到的除了用来显示你所请求页面的...

  • 爬虫-原理和流程

    爬虫原理 模拟浏览器发送网络请求,接收请求响应 爬虫分类 通用爬虫:搜索引擎的爬虫聚焦爬虫:针对特定网站的爬虫积累...

  • 网络爬虫(一)

    网络爬虫是一种程序,通过代码运行模拟浏览器上网,去网站(网页)上抓取数据。 爬虫大约分三种: 通用爬虫: 获取相关...

  • 网络爬虫详解:原理、工作流程及爬取策略(二)

    在上篇文章中,企通查以通用网络爬虫和聚焦网络爬虫为主,对网络爬虫的实现原理进行了介绍(上篇内容回顾:网络爬虫详解:...

  • 1

    两种典型爬虫:通用网络爬虫、聚焦网络爬虫 通用网络爬虫实现原理与过程: 获取初始的URL 根据初始的URL爬取页面...

  • 一个简单的网络爬虫

    什么是网络爬虫 简单的说,网络爬虫就是一种自动抓去互联网上资源的程序。 简单的网络爬虫 简单的网络爬虫原理就是使用...

  • Java爬虫高级教程

    作为网络爬虫的入门采用Java开发语言,内容涵盖了网络爬虫的原理以及开发逻辑,Java网络爬虫基础知识,网络抓包介...

  • Python网络爬虫

    1. 概述 本文主要介绍网络爬虫,采用的实现语言为Python,目的在于阐述网络爬虫的原理和实现,并且对目前常见的...

  • 浏览器原理相关视频课程

    大话浏览器渲染原理浏览器渲染原理和打开网页机制HTTPS 网络协议原理解析从零开始,彻底掌握浏览器渲染原理深入V8...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

网友评论

      本文标题:浏览器的运行原理和网络爬虫

      本文链接:https://www.haomeiwen.com/subject/yemfsqtx.html