【技术贴】python之爬虫

作者: 小灵仙子 | 来源:发表于2020-04-30 23:20 被阅读0次

什么是爬虫?

到底什么是爬虫呢?爬虫,从本质上来说,就是利用程序在网上拿到对我们有价值的数据。

爬虫能做很多事,能做商业分析,也能做生活助手,比如:分析北京近两年二手房成交均价是多少?深圳的Python工程师平均薪资是多少?北京哪家餐厅粤菜最好吃?等等。

这是个人利用爬虫所做到的事情,而公司,同样可以利用爬虫来实现巨大的商业价值。比如你所熟悉的搜索引擎——百度和谷歌,它们的核心技术之一也是爬虫,而且是超级爬虫。

为什么需要爬虫?

爬虫在个人生活、公司业务等方面能做的事,那都是别人“爬虫日常”的一角。

浏览器的工作原理?

1,我们在浏览器的地址栏输入网址(也可以叫URL)。

2,浏览器向服务器传达了我们想访问某个网页的需求,这个过程就叫做【请求】。

3,服务器把你想要的网站数据发送给浏览器,这个过程叫做【响应】。

所以浏览器和服务器之间,先请求,后响应,有这么一层关系。

当服务器把数据响应给浏览器之后,浏览器并不会直接把数据丢给你。因为这些数据是用计算机的语言写的,浏览器还要把这些数据翻译成你能看得懂的样子,这是浏览器做的另一项工作【解析数据】。

紧接着,我们就可以在拿到的数据中,挑选出对我们有用的数据,这是【提取数据】。

最后,我们把这些有用的数据保存好,这是【存储数据】。

爬虫的工作步骤

直接上一段获取页面文章的代码:

具体为何,明天继续分解。

相关文章

网友评论

    本文标题:【技术贴】python之爬虫

    本文链接:https://www.haomeiwen.com/subject/vqmxghtx.html