什么是爬虫?
到底什么是爬虫呢?爬虫,从本质上来说,就是利用程序在网上拿到对我们有价值的数据。
爬虫能做很多事,能做商业分析,也能做生活助手,比如:分析北京近两年二手房成交均价是多少?深圳的Python工程师平均薪资是多少?北京哪家餐厅粤菜最好吃?等等。
这是个人利用爬虫所做到的事情,而公司,同样可以利用爬虫来实现巨大的商业价值。比如你所熟悉的搜索引擎——百度和谷歌,它们的核心技术之一也是爬虫,而且是超级爬虫。
为什么需要爬虫?
爬虫在个人生活、公司业务等方面能做的事,那都是别人“爬虫日常”的一角。
浏览器的工作原理?
![](https://img.haomeiwen.com/i4567893/7dbd6a167665d8bf.png)
1,我们在浏览器的地址栏输入网址(也可以叫URL)。
2,浏览器向服务器传达了我们想访问某个网页的需求,这个过程就叫做【请求】。
3,服务器把你想要的网站数据发送给浏览器,这个过程叫做【响应】。
所以浏览器和服务器之间,先请求,后响应,有这么一层关系。
当服务器把数据响应给浏览器之后,浏览器并不会直接把数据丢给你。因为这些数据是用计算机的语言写的,浏览器还要把这些数据翻译成你能看得懂的样子,这是浏览器做的另一项工作【解析数据】。
紧接着,我们就可以在拿到的数据中,挑选出对我们有用的数据,这是【提取数据】。
最后,我们把这些有用的数据保存好,这是【存储数据】。
爬虫的工作步骤
![](https://img.haomeiwen.com/i4567893/85e204a45cdf6e89.png)
直接上一段获取页面文章的代码:
![](https://img.haomeiwen.com/i4567893/78bf188b6f3f5bee.png)
具体为何,明天继续分解。
网友评论