爬虫原理

爬虫原理

作者: 放不下屠刀的佛 | 来源:发表于2018-07-27 13:32 被阅读26次

Python 网络爬虫（一）
【Python】Python3网络爬虫实战-15、爬虫基础：HT
爬虫-原理和流程
基础爬虫
网络爬虫1-python学习32
Python3 爬虫介绍
学渣讲爬虫之Python爬虫从入门到出门（第一讲）
1
python进阶三:爬虫
爬虫原理

当自己需要数据的时候，能够分分钟就能获得，是不是一件很爽的事情。为了获得自己想要的数据，我们有必要弄懂爬虫原理。经常用百度搜索的筒子们，有没有想过当你输入百度地址时候，网络那边都发生了什么，本章讲一下网络连接原理和爬虫原理。

网络连接原理如下图：

打个比方：网络连接像是在自助饮料售货机上购买饮料一样：购买者只需选择所需饮料，投入刷二维码，自助饮料机就会弹出相应的商品。如上图，计算机（购买者）带着请求头和消息体（钱和所需饮料）向服务器（自助饮料售货机）发起一次request请求（购买），相应的服务器（自助售货机）会返回计算机相应的HTML文件作为Response（相应的商品）。

爬虫原理

爬虫其实就是模仿计算机：

1、模拟计算机对服务器发起Request请求

2、接受服务器端的Response内容并解析、提取所需的信息

我们经常遇到网页请求主要分为两种：多页面和跨页面。相应的爬虫流程也是这两种。

1.多页面爬虫流程

示例图：

多页面

QQ空间说说，58赶集等信息网站很多都是这个结构，每页结构都差不多。这种类型的网页爬虫流程为：

1、手动翻页查看一下各网页的URL构成的特点，构造出所有页面的URL存入列表中。

2、根据URL列表一次循环出URL

3、定义爬虫函数（这个是重点，也是难点）

4、循环调用爬虫函数，存储数据（根据数据形式，选择不同数据库）

5、循环完毕，结束爬虫程序

跨页面爬虫流程

以简书为例：列表页和详细页分别如下图

列表页

详细页

爬虫流程如下：

1、定义爬取函数爬取列表页的所有专题URL

2、将专题URL存入列表中（种子URL）

3、定义爬取详细页的数据函数

4、进入专题详细页爬取详细页数据

5、存储数据、循环完毕，结束爬虫程序。如下图

相关文章

Python 网络爬虫（一）
网络爬虫的基本介绍学习爬虫，我想主要从以下几个方面来切入 -爬虫的原理？ -爬虫的作用？ -爬虫的实现？ -爬虫...
【Python】Python3网络爬虫实战-15、爬虫基础：HT
在写爬虫之前，还是需要了解一些爬虫的基础知识，如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies ...
爬虫-原理和流程
爬虫原理模拟浏览器发送网络请求，接收请求响应爬虫分类通用爬虫：搜索引擎的爬虫聚焦爬虫：针对特定网站的爬虫积累...
基础爬虫
爬虫流程：爬虫的原理：url -> html -> model (洗数据) -> 分析依赖的包requests ...
网络爬虫1-python学习32
初识爬虫-爬虫的工作原理什么是爬虫呢？爬虫，从本质上来说，就是利用程序在网上拿到对我们有价值的数据。爬虫能做...
Python3 爬虫介绍
爬虫的基本原理所谓爬虫就是一个自动化数据采集工具，你只要告诉它要采集哪些数据。其背后的基本原理就是爬虫程序向目标...
学渣讲爬虫之Python爬虫从入门到出门（第一讲）
目录学渣讲爬虫之Python爬虫从入门到出门第一讲目录爬虫的常用形式爬虫的基本原理前期准备简单爬虫爬...
1
两种典型爬虫：通用网络爬虫、聚焦网络爬虫通用网络爬虫实现原理与过程：获取初始的URL 根据初始的URL爬取页面...
python进阶三:爬虫
1.爬虫简介 1.1爬虫分类 1.1.1通用爬虫通用搜索引擎（Search Engine）工作原理step1:抓...
爬虫原理
当自己需要数据的时候，能够分分钟就能获得，是不是一件很爽的事情。为了获得自己想要的数据，我们有必要弄懂爬虫原理。经...

网友评论

本文标题：爬虫原理

本文链接：https://www.haomeiwen.com/subject/uymvmftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|爬虫原理|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！