【技术贴】python之爬虫

作者: 小灵仙子 | 来源:发表于2020-04-30 23:20 被阅读0次

什么是爬虫？

到底什么是爬虫呢？爬虫，从本质上来说，就是利用程序在网上拿到对我们有价值的数据。

爬虫能做很多事，能做商业分析，也能做生活助手，比如：分析北京近两年二手房成交均价是多少？深圳的Python工程师平均薪资是多少？北京哪家餐厅粤菜最好吃？等等。

这是个人利用爬虫所做到的事情，而公司，同样可以利用爬虫来实现巨大的商业价值。比如你所熟悉的搜索引擎——百度和谷歌，它们的核心技术之一也是爬虫，而且是超级爬虫。

为什么需要爬虫？

爬虫在个人生活、公司业务等方面能做的事，那都是别人“爬虫日常”的一角。

1，我们在浏览器的地址栏输入网址（也可以叫URL）。

2，浏览器向服务器传达了我们想访问某个网页的需求，这个过程就叫做【请求】。

3，服务器把你想要的网站数据发送给浏览器，这个过程叫做【响应】。

所以浏览器和服务器之间，先请求，后响应，有这么一层关系。

当服务器把数据响应给浏览器之后，浏览器并不会直接把数据丢给你。因为这些数据是用计算机的语言写的，浏览器还要把这些数据翻译成你能看得懂的样子，这是浏览器做的另一项工作【解析数据】。

紧接着，我们就可以在拿到的数据中，挑选出对我们有用的数据，这是【提取数据】。

最后，我们把这些有用的数据保存好，这是【存储数据】。

直接上一段获取页面文章的代码：

具体为何，明天继续分解。

本文标题：【技术贴】python之爬虫

本文链接：https://www.haomeiwen.com/subject/vqmxghtx.html