美文网首页大数据 爬虫Python AI SqlPython3自学 爬虫实战Python
大数据学习笔记之爬虫系列(1)----爬虫简介

大数据学习笔记之爬虫系列(1)----爬虫简介

作者: SofiyaJ | 来源:发表于2018-10-28 16:35 被阅读44次

什么是爬虫?

顾名思义,爬虫,可以将互联网理解成一张巨大的网,我们编写出一个爬虫程序,是创造出一只有明确需求的蜘蛛,从而在这张大网上爬行,抓取到我们所需要的网络资源。

请求网站并提取数据的自动化程序

爬虫爬的是什么?

网页的源代码。
获取网页的源代码最直接的途径:

  • 打开浏览器(本文以谷歌浏览器为例)
  • 鼠标右键,“检查”,或者是快捷键组合“Ctrl+Shift+I”


    检查元素.png

    上图即为百度首页的例子,我们单击选择“Element”,就可以看到百度首页的网页组成部分。

当然,当我们取大型网站的时候,还会有很多后期网页通过JS渲染的资源。

有些时候,我们抓取的网页成分和实际的不一样,这个时候就要用特定的方法解析JS:

解决渲染问题.png

我们写爬虫程序,最终得到的数据即为这些特定的网页元素。

宏观上说,我们可以抓的资源有以下四类:


可以抓取的数据.png

爬虫的基本流程

爬虫的基本流程.png

如上图所示,爬虫的基本流程分为4部:

  • 发起请求
  • 从服务器端获取相应内容
  • 解析获得的相应内容
  • 保存解析后的数据

Request 和Response 浅析

request and response.png

Request的主要组成部分

request.png

Response的主要组成部分

response.png

爬到数据的解析方式

解析方式.png

爬到数据的存储

保存数据.png

以上就是爬虫所涉及的框架元素。

相关文章

  • 大数据学习笔记之爬虫系列(1)----爬虫简介

    什么是爬虫? 顾名思义,爬虫,可以将互联网理解成一张巨大的网,我们编写出一个爬虫程序,是创造出一只有明确需求的蜘蛛...

  • Python爬虫进阶-curl的使用

    本笔记是爬虫进阶的第一篇,关于本系列笔记的介绍,请看Python爬虫进阶-前言。 本篇也是爬虫三大环节:数据获取、...

  • 爬虫0010:概述

    爬虫概述 ——编辑:大牧莫邪 1. 目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2...

  • 认识爬虫

    前言 我的爬虫笔记 经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。 爬虫 爬虫,即网络爬虫,大...

  • 爬虫01:概述

    爬虫概述 1.目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2.章节内容 2.1爬虫...

  • 资料

    Python爬虫系列(一)初期学习爬虫的拾遗与总结(11.4更) Python爬虫学习系列教程 Python爬虫学习手册

  • python爬虫01

    爬虫概述 1. 目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2. 章节内容 2.1...

  • 【1】爬虫概述

    爬虫概述 1. 目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2. 章节内容 2.1...

  • Python爬虫学习系列教程

    转自: 静觅»Python爬虫学习系列教程 Python爬虫学习系列教程 Python版本:2.7 一、爬虫入门 ...

  • python-爬虫基础(慕课网)

    二.爬虫简介以及爬虫的技术价值 2-1:爬虫是什么? 2-2:爬虫技术的价值? 三.简单爬虫架构 3-1:简单爬虫...

网友评论

本文标题:大数据学习笔记之爬虫系列(1)----爬虫简介

本文链接:https://www.haomeiwen.com/subject/wttmtqtx.html