美文网首页
网络爬虫

网络爬虫

作者: 88deb5bb2ed8 | 来源:发表于2016-10-29 15:51 被阅读0次

定义:

通过超链接用图的遍历算法,自动访问到每一个网页并把他们保存起来的程序。

URL和URI的区别

URL是URI的子集,例如面的URI

http://www.why.com.cn/myhtml/html1223/

我们可以这样解释它:

①这是一个可以通过HTTP协议访问的资源,

②位于主机 www.webmonkey.com.cn上,

③通过路径“/html/html40”访问。


URL的一般格式为(带方括号[]的为可选项):

protocol :// hostname[:port] / path / [;parameters][?query]#fragment

URL的格式由三部分组成:

①第一部分是协议(或称为服务方式)。

②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

③第三部分是主机资源的具体地址,如目录和文件名等。

第一部分和第二部分用“://”符号隔开,

第二部分和第三部分用“/”符号隔开。

第一部分和第二部分是不可缺少的,第三部分有时可以省略。


相关文章

网友评论

      本文标题:网络爬虫

      本文链接:https://www.haomeiwen.com/subject/qdnfuttx.html