美文网首页
网络爬虫1-python学习32

网络爬虫1-python学习32

作者: 郭俊未来学院 | 来源:发表于2019-12-24 22:35 被阅读0次

初识爬虫-爬虫的工作原理

什么是爬虫呢?

爬虫,从本质上来说,就是利用程序在网上拿到对我们有价值的数据。

爬虫能做很多事,能做商业分析,也能做生活助手,比如:分析深圳近两年二手房成交均价是多少?深圳的Python工程师平均薪资是多少?深圳哪家餐厅粤菜最好吃?等等。

这是个人利用爬虫所做到的事情,而公司,同样可以利用爬虫来实现巨大的商业价值。比如你所熟悉的搜索引擎——百度和谷歌,它们的核心技术之一也是爬虫,而且是超级爬虫。

这是因为,百度这家公司会源源不断地把千千万万个网站爬取下来,存储在自己的服务器上。你在百度搜索的本质就是在它的服务器上搜索信息,你搜索到的结果是一些超链接,在超链接跳转之后你就可以访问其它网站了。

这是因为,百度这家公司会源源不断地把千千万万个网站爬取下来,存储在自己的服务器上。你在百度搜索的本质就是在它的服务器上搜索信息,你搜索到的结果是一些超链接,在超链接跳转之后你就可以访问其它网站了。

爬虫是如何做到数据收集的:

一般来说,传统的拿数据的做法是:通过浏览器上网,手动下载所需要的数据。其实在这背后,浏览器做了很多我们看不见的工作,而只有了解浏览器的工作原理后,才能真正理解爬虫在帮我们做什么。

所以,我们先来看看浏览器的工作原理。

浏览器工作原理

首先,我们在浏览器输入网址(也可以叫URL)。然后,浏览器向服务器传达了我们想访问某个网页的需求,这个过程就叫做【请求】。

紧接着,服务器把你想要的网站数据发送给浏览器,这个过程叫做【响应】。

浏览器和服务器之间的关系:

当服务器把数据响应给浏览器之后,浏览器并不会直接把数据丢给你。因为这些数据是用计算机的语言写的,浏览器还要把这些数据翻译成你能看得懂的样子,这是浏览器做的另一项工作【解析数据】;

紧接着,我们就可以在拿到的数据中,挑选出对我们有用的数据,这是【提取数据】;

最后,我们把这些有用的数据保存好,这是【存储数据】;

以上,就是浏览器的工作原理,是人、浏览器、服务器三者之间的交流过程。

爬虫的工作原理:

爬虫的工作原理

当我们决定去某个网页后,首先,爬虫可以模拟浏览器去向服务器发出请求;其次,等服务器响应后,爬虫程序还可以代替浏览器帮我们解析数据;接着,爬虫可以根据我们设定的规则批量提取相关数据,而不需要我们去手动提取;最后,爬虫可以批量地把数据存储到本地。

爬虫的工作原理简化图:

简化图

其实,还可以把最开始的【请求——响应】封装为一个步骤——获取数据。由此,我们得出,爬虫的工作分为四步:

第0步:获取数据。爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。

第1步:解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。

第2步:提取数据。爬虫程序再从中提取出我们需要的数据。

第3步:储存数据。爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。

这就是爬虫的工作原理啦,无论之后的学习内容怎样变化,其核心都是爬虫原理。

相关文章

  • 网络爬虫1-python学习32

    初识爬虫-爬虫的工作原理 什么是爬虫呢? 爬虫,从本质上来说,就是利用程序在网上拿到对我们有价值的数据。 爬虫能做...

  • 爬虫入门

    为什么要学习爬虫? Python做爬虫优势 关于Python网络爬虫,我们需要学习的有: 什么是爬虫? 网络爬虫(...

  • [Python网络爬虫]第1章 网络爬虫入门

    要点 介绍网络爬虫的基础部分学习网络爬虫的原因网络爬虫带来的价值网络爬虫是否合法网络爬虫的基本议题和框架 1.1 ...

  • 爬虫学习1-python 语言学习

    目前 python 已经有3.0了。 建议的学习方式是在廖雪峰的官网上看资料。 如果你参照我的学习路线,建议你看的...

  • 网络爬虫2-python学习32

    用爬虫获取数据 学习利用一个强大的库——requests来获取数据; 电脑上安装requests方法是:在Mac电...

  • 如何入门 python 爬虫?python爬虫入门到精通,看完这

    为什么要学网络爬虫? 我们初步认识了网络爬虫,但是为什么要学习网络爬虫呢?要知道,只有清晰地知道我们的学习目的,才...

  • 爬虫学习之基于Scrapy的自动登录

    概述 在前面两篇(爬虫学习之基于Scrapy的网络爬虫和爬虫学习之简单的网络爬虫)文章中我们通过两个实际的案例,采...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • 【爬虫教程】吐血整理,最详细的爬虫入门教程~

    初识爬虫 学习爬虫之前,我们首先得了解什么是爬虫。来自于百度百科的解释: 网络爬虫(又称为网页蜘蛛,网络机器人,在...

  • 初识爬虫(1)

    初识爬虫 学习爬虫之前,我们首先得了解什么是爬虫。来自于百度百科的解释: 网络爬虫(又称为网页蜘蛛,网络机器人,在...

网友评论

      本文标题:网络爬虫1-python学习32

      本文链接:https://www.haomeiwen.com/subject/onxqoctx.html