美文网首页大数据 爬虫Python AI SqlPython3自学 爬虫实战Python
大数据学习笔记之爬虫系列(1)----爬虫简介

大数据学习笔记之爬虫系列(1)----爬虫简介

作者: SofiyaJ | 来源:发表于2018-10-28 16:35 被阅读44次

    什么是爬虫?

    顾名思义,爬虫,可以将互联网理解成一张巨大的网,我们编写出一个爬虫程序,是创造出一只有明确需求的蜘蛛,从而在这张大网上爬行,抓取到我们所需要的网络资源。

    请求网站并提取数据的自动化程序

    爬虫爬的是什么?

    网页的源代码。
    获取网页的源代码最直接的途径:

    • 打开浏览器(本文以谷歌浏览器为例)
    • 鼠标右键,“检查”,或者是快捷键组合“Ctrl+Shift+I”


      检查元素.png

      上图即为百度首页的例子,我们单击选择“Element”,就可以看到百度首页的网页组成部分。

    当然,当我们取大型网站的时候,还会有很多后期网页通过JS渲染的资源。

    有些时候,我们抓取的网页成分和实际的不一样,这个时候就要用特定的方法解析JS:

    解决渲染问题.png

    我们写爬虫程序,最终得到的数据即为这些特定的网页元素。

    宏观上说,我们可以抓的资源有以下四类:


    可以抓取的数据.png

    爬虫的基本流程

    爬虫的基本流程.png

    如上图所示,爬虫的基本流程分为4部:

    • 发起请求
    • 从服务器端获取相应内容
    • 解析获得的相应内容
    • 保存解析后的数据

    Request 和Response 浅析

    request and response.png

    Request的主要组成部分

    request.png

    Response的主要组成部分

    response.png

    爬到数据的解析方式

    解析方式.png

    爬到数据的存储

    保存数据.png

    以上就是爬虫所涉及的框架元素。

    相关文章

      网友评论

      本文标题:大数据学习笔记之爬虫系列(1)----爬虫简介

      本文链接:https://www.haomeiwen.com/subject/wttmtqtx.html