美文网首页
爬虫原理

爬虫原理

作者: 放不下屠刀的佛 | 来源:发表于2018-07-27 13:32 被阅读26次

当自己需要数据的时候,能够分分钟就能获得,是不是一件很爽的事情。为了获得自己想要的数据,我们有必要弄懂爬虫原理。经常用百度搜索的筒子们,有没有想过当你输入百度地址时候,网络那边都发生了什么,本章讲一下网络连接原理和爬虫原理。

网络连接原理如下图:

打个比方:网络连接像是在自助饮料售货机上购买饮料一样:购买者只需选择所需饮料,投入刷二维码,自助饮料机就会弹出相应的商品。如上图,计算机(购买者)带着请求头和消息体(钱和所需饮料)向服务器(自助饮料售货机)发起一次request请求(购买),相应的服务器(自助售货机)会返回计算机相应的HTML文件作为Response(相应的商品)。

爬虫原理

爬虫其实就是模仿计算机:

1、模拟计算机对服务器发起Request请求

2、接受服务器端的Response内容并解析、提取所需的信息

我们经常遇到网页请求主要分为两种:多页面和跨页面。相应的爬虫流程也是这两种。

1.多页面爬虫流程

示例图:

多页面

QQ空间说说,58赶集等信息网站很多都是这个结构,每页结构都差不多。这种类型的网页爬虫流程为:

1、手动翻页查看一下各网页的URL构成的特点,构造出所有页面的URL存入列表中。

2、根据URL列表一次循环出URL

3、定义爬虫函数(这个是重点,也是难点)

4、循环调用爬虫函数,存储数据(根据数据形式,选择不同数据库)

5、循环完毕,结束爬虫程序

跨页面爬虫流程

以简书为例:列表页和详细页分别如下图

列表页 详细页

爬虫流程如下:

1、定义爬取函数爬取列表页的所有专题URL

2、将专题URL存入列表中(种子URL)

3、定义爬取详细页的数据函数

4、进入专题详细页爬取详细页数据

5、存储数据、循环完毕,结束爬虫程序。如下图

相关文章

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • 【Python】Python3网络爬虫实战-15、爬虫基础:HT

    在写爬虫之前,还是需要了解一些爬虫的基础知识,如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies ...

  • 爬虫-原理和流程

    爬虫原理 模拟浏览器发送网络请求,接收请求响应 爬虫分类 通用爬虫:搜索引擎的爬虫聚焦爬虫:针对特定网站的爬虫积累...

  • 基础爬虫

    爬虫流程:爬虫的原理:url -> html -> model (洗数据) -> 分析 依赖的包requests ...

  • 网络爬虫1-python学习32

    初识爬虫-爬虫的工作原理 什么是爬虫呢? 爬虫,从本质上来说,就是利用程序在网上拿到对我们有价值的数据。 爬虫能做...

  • Python3 爬虫介绍

    爬虫的基本原理 所谓爬虫就是一个自动化数据采集工具,你只要告诉它要采集哪些数据。其背后的基本原理就是爬虫程序向目标...

  • 学渣讲爬虫之Python爬虫从入门到出门(第一讲)

    目录 学渣讲爬虫之Python爬虫从入门到出门第一讲 目录 爬虫的常用形式 爬虫的基本原理 前期准备 简单爬虫 爬...

  • 1

    两种典型爬虫:通用网络爬虫、聚焦网络爬虫 通用网络爬虫实现原理与过程: 获取初始的URL 根据初始的URL爬取页面...

  • python进阶三:爬虫

    1.爬虫简介 1.1爬虫分类 1.1.1通用爬虫 通用搜索引擎(Search Engine)工作原理step1:抓...

  • 爬虫原理

    当自己需要数据的时候,能够分分钟就能获得,是不是一件很爽的事情。为了获得自己想要的数据,我们有必要弄懂爬虫原理。经...

网友评论

      本文标题:爬虫原理

      本文链接:https://www.haomeiwen.com/subject/uymvmftx.html