美文网首页
2018-05-22爬虫原理、代码编写流程框架

2018-05-22爬虫原理、代码编写流程框架

作者: 菩灵 | 来源:发表于2018-05-23 19:24 被阅读11次

除了网络网站,HTTP协议仍然可以以App等为客户端,传输一些不限于网页的数据了。
但是这些数据,仍然是被HTTP的报文所包含的。
服务器开发主要工作在So.send()和So.recv()之间
爬虫:站在客户端的角度进行。
192.168.1.1/index.py
是浏览器让服务器去执行index.py脚本,把执行后的结果传回浏览器。
百度是如何知道互联网中的网站的呢?
爬虫:跟我们的app、浏览器作用于一样的,向服务器发送各种请求。
爬虫本身是个程序,并非浏览器,拿到的和浏览器拿到的一样的资源(带有标签的页面信息)
数据库是保存数据的东西,保存爬虫的映射信息
避免重复爬,也要避免漏爬
搜索引擎公司会有算法进行排序问题

一个HTTP协议的代码编写流程框架:


HTTP协议代码编写流程框架

相关文章

网友评论

      本文标题:2018-05-22爬虫原理、代码编写流程框架

      本文链接:https://www.haomeiwen.com/subject/dgekjftx.html