网络爬虫1-python学习32

作者: 郭俊未来学院 | 来源:发表于2019-12-24 22:35 被阅读0次

网络爬虫1-python学习32
爬虫入门
[Python网络爬虫]第1章网络爬虫入门
爬虫学习1-python 语言学习
网络爬虫2-python学习32
如何入门 python 爬虫？python爬虫入门到精通，看完这
爬虫学习之基于Scrapy的自动登录
Python 网络爬虫（一）
【爬虫教程】吐血整理，最详细的爬虫入门教程~
初识爬虫（1）

初识爬虫-爬虫的工作原理

什么是爬虫呢？

爬虫，从本质上来说，就是利用程序在网上拿到对我们有价值的数据。

爬虫能做很多事，能做商业分析，也能做生活助手，比如：分析深圳近两年二手房成交均价是多少？深圳的Python工程师平均薪资是多少？深圳哪家餐厅粤菜最好吃？等等。

这是个人利用爬虫所做到的事情，而公司，同样可以利用爬虫来实现巨大的商业价值。比如你所熟悉的搜索引擎——百度和谷歌，它们的核心技术之一也是爬虫，而且是超级爬虫。

这是因为，百度这家公司会源源不断地把千千万万个网站爬取下来，存储在自己的服务器上。你在百度搜索的本质就是在它的服务器上搜索信息，你搜索到的结果是一些超链接，在超链接跳转之后你就可以访问其它网站了。

爬虫是如何做到数据收集的：

一般来说，传统的拿数据的做法是：通过浏览器上网，手动下载所需要的数据。其实在这背后，浏览器做了很多我们看不见的工作，而只有了解浏览器的工作原理后，才能真正理解爬虫在帮我们做什么。

所以，我们先来看看浏览器的工作原理。

浏览器工作原理

首先，我们在浏览器输入网址（也可以叫URL）。然后，浏览器向服务器传达了我们想访问某个网页的需求，这个过程就叫做【请求】。

紧接着，服务器把你想要的网站数据发送给浏览器，这个过程叫做【响应】。

浏览器和服务器之间的关系：

当服务器把数据响应给浏览器之后，浏览器并不会直接把数据丢给你。因为这些数据是用计算机的语言写的，浏览器还要把这些数据翻译成你能看得懂的样子，这是浏览器做的另一项工作【解析数据】；

紧接着，我们就可以在拿到的数据中，挑选出对我们有用的数据，这是【提取数据】；

最后，我们把这些有用的数据保存好，这是【存储数据】；

以上，就是浏览器的工作原理，是人、浏览器、服务器三者之间的交流过程。

爬虫的工作原理：

爬虫的工作原理

当我们决定去某个网页后，首先，爬虫可以模拟浏览器去向服务器发出请求；其次，等服务器响应后，爬虫程序还可以代替浏览器帮我们解析数据；接着，爬虫可以根据我们设定的规则批量提取相关数据，而不需要我们去手动提取；最后，爬虫可以批量地把数据存储到本地。

爬虫的工作原理简化图：

简化图

其实，还可以把最开始的【请求——响应】封装为一个步骤——获取数据。由此，我们得出，爬虫的工作分为四步：

第0步：获取数据。爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。

第1步：解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。

第2步：提取数据。爬虫程序再从中提取出我们需要的数据。

第3步：储存数据。爬虫程序把这些有用的数据保存起来，便于你日后的使用和分析。

这就是爬虫的工作原理啦，无论之后的学习内容怎样变化，其核心都是爬虫原理。

网友评论

本文标题：网络爬虫1-python学习32

本文链接：https://www.haomeiwen.com/subject/onxqoctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

网络爬虫1-python学习32

初识爬虫-爬虫的工作原理

相关文章

网络爬虫1-python学习32

爬虫入门

[Python网络爬虫]第1章网络爬虫入门

爬虫学习1-python 语言学习

网络爬虫2-python学习32

如何入门 python 爬虫？python爬虫入门到精通，看完这

爬虫学习之基于Scrapy的自动登录

Python 网络爬虫（一）

【爬虫教程】吐血整理，最详细的爬虫入门教程~

初识爬虫（1）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读