pathon知识

作者: 65492352d496 | 来源:发表于2019-04-15 23:01 被阅读0次

pathon知识
2019-03-15
pathon
pathon
pathon
pathon
学习
pathon入门
pathon流程
挑战

进行大规模爬虫，通常都是从一个URL开始爬，然后把页面中解析的URL链接加入待爬的URL集合中，我们需要用到队列或者优先队列来区别对待有些网站优先爬，有些网站后面爬。每爬去个页面，是使用深度优先还是广度优先算法爬取下一个链接。每次发起网络请求的时候，会涉及到一个DNS的解析过程(将网址转换成IP)为了避免重复地DNS解析，我们需要把解析好的IP缓存下来。URL 那么多,如何判断哪些网址已经爬过，哪些没有爬过，简单点就是是使用字典结构来存储已经爬过的的URL,但是如果碰过海星的URL时，字典占用的内存空间非常大，此时你需要考虑使用Bloom Filter (布隆过滤器) ,用一个线程逐个地爬取数据，效率低得可怜,如果提高爬虫效率,是使用多线程，多进程还是协程，还是分布式操作。

网友评论

本文标题：pathon知识

本文链接：https://www.haomeiwen.com/subject/ymymwqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

pathon知识

相关文章

pathon知识

2019-03-15

pathon

pathon

pathon

pathon

学习

pathon入门

pathon流程

挑战

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读