大数据学习笔记之爬虫系列（1）----爬虫简介

作者: SofiyaJ | 来源:发表于2018-10-28 16:35 被阅读44次

大数据学习笔记之爬虫系列（1）----爬虫简介
Python爬虫进阶-curl的使用
爬虫0010：概述
认识爬虫
爬虫01：概述
资料
python爬虫01
【1】爬虫概述
Python爬虫学习系列教程
python-爬虫基础（慕课网）

什么是爬虫？

顾名思义，爬虫，可以将互联网理解成一张巨大的网，我们编写出一个爬虫程序，是创造出一只有明确需求的蜘蛛，从而在这张大网上爬行，抓取到我们所需要的网络资源。

请求网站并提取数据的自动化程序

爬虫爬的是什么？

网页的源代码。
获取网页的源代码最直接的途径：

打开浏览器（本文以谷歌浏览器为例）
鼠标右键，“检查”，或者是快捷键组合“Ctrl+Shift+I”

检查元素.png

上图即为百度首页的例子，我们单击选择“Element”,就可以看到百度首页的网页组成部分。

当然，当我们取大型网站的时候，还会有很多后期网页通过JS渲染的资源。

有些时候，我们抓取的网页成分和实际的不一样，这个时候就要用特定的方法解析JS：

解决渲染问题.png

我们写爬虫程序，最终得到的数据即为这些特定的网页元素。

宏观上说，我们可以抓的资源有以下四类：

可以抓取的数据.png

爬虫的基本流程

爬虫的基本流程.png

如上图所示，爬虫的基本流程分为4部：

发起请求
从服务器端获取相应内容
解析获得的相应内容
保存解析后的数据

Request 和Response 浅析

request and response.png

Request的主要组成部分

request.png

Response的主要组成部分

response.png

爬到数据的解析方式

解析方式.png

爬到数据的存储

保存数据.png

以上就是爬虫所涉及的框架元素。

网友评论

青风:我要做黑客
SofiyaJ:@青风加油！

本文标题：大数据学习笔记之爬虫系列（1）----爬虫简介

本文链接：https://www.haomeiwen.com/subject/wttmtqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

大数据学习笔记之爬虫系列（1）----爬虫简介

什么是爬虫？

爬虫爬的是什么？

爬虫的基本流程

Request 和Response 浅析

Request的主要组成部分

Response的主要组成部分

爬到数据的解析方式

爬到数据的存储

相关文章

大数据学习笔记之爬虫系列（1）----爬虫简介

Python爬虫进阶-curl的使用

爬虫0010：概述

认识爬虫

爬虫01：概述

资料

python爬虫01

【1】爬虫概述

Python爬虫学习系列教程

python-爬虫基础（慕课网）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据爬虫Python AI Sql

Python3自学爬虫实战

Python