美文网首页
爬虫小技巧

爬虫小技巧

作者: mr_酱 | 来源:发表于2018-06-12 22:15 被阅读43次
    未标题-1.jpg

    估算网站大小

    估算网站的大小有个简便方法就是检查google、baidu、360搜索等爬虫的结果,因为很有可能这些搜索引擎已经爬取过目标网站,因此他们的收录了目标网站的页面数据。从而估算出目标网站的数据量。
    示例:
    在百度搜索中输入site:jianshu.com,搜索结果如下:

    baidu.png
    在360搜索中输入site:jianshu.com,搜索结果如下:
    360so.png
    对比可以发现截至当前时间简书的页面数量大概在2200W以上

    在搜索的域名后面加URL路径,可以对结果进行过滤。

    相关文章

      网友评论

          本文标题:爬虫小技巧

          本文链接:https://www.haomeiwen.com/subject/yntdeftx.html