美文网首页python 初中高合集
2018-08-08 爬虫(一)

2018-08-08 爬虫(一)

作者: 秸秆混凝烧结工程师 | 来源:发表于2018-08-08 21:15 被阅读0次

    我们来看看网络爬虫如何下载整个互联网。假定我们从一家门户网站的首页出发,先下载这个网页,然后通过分析这个网页,可以找到藏在它里面的所有超链接,也就等于知道了这家门户网站首页所直接连接的全部网页,诸如雅虎邮件、雅虎财经、雅虎新闻等等。我们接下来访问、下载并分析这家门户网站的邮件等网页,又能找到其他相连的网页。我们让计算机不停地做下去,就能下载整个的互联网。当然,我们也要记载哪个网页下载过了,以免重复。在网络爬虫中,我们使用一个称为“哈希表”(Hash Table)的列表而不是一个记事本纪录网页是否下载过的信息。

    现在的互联网非常巨大,不可能通过一台或几台计算机服务器就能完成下载任务。比如(Google 没有公开公布我们的数目,所以我这里举了雅虎的索引大小为例)宣称他们索引了 200 亿个网页,假如下载一个网页需要一秒钟,下载这 200 亿个网页则需要 634 年。因此,一个商业的网络爬虫需要有成千上万个服务器,并且由快速网络连接起来。如何建立这样复杂的网络系统,如何协调这些服务器的任务,就是网络设计和程序设计的艺术了。

                                                                        (文章摘录至 谷歌科学家 吴军先生)

    相关文章

      网友评论

        本文标题:2018-08-08 爬虫(一)

        本文链接:https://www.haomeiwen.com/subject/ksqfbftx.html