美文网首页用python写网络爬虫
第一章 :网络爬虫简介

第一章 :网络爬虫简介

作者: Bugl0v3r | 来源:发表于2017-03-01 15:42 被阅读72次

    第一章 :网络爬虫简介

    1.网络爬虫是什么?

    2.网络爬虫何时有用?

    3.背景调研

    • 检查robots.txt

    大都数网站都会定义robots.txt 文件。这样可以让爬虫了解爬取该网站时存在哪些限制。在爬取前检查该文件可以最小化爬虫被禁的可能,而且还能发现和网站结构相关的线索。
    关于robots.txt协议的更多信息可参见

    • 检查网站地图

    网站提供的sitemap文件(即网站地图)可以帮助爬虫定位最新的内容,而无须爬取每一个网页 。
    网站地图标准的定义

    • 估算网站大小

    目标网站的大小会影响我们如何进行爬取。对于大型网站(几百万个网页)则需要用分布式爬虫。
    估算一个网站大小最简单的方法是检查Google爬虫的结果,当然百度也可以。
    如搜索site example.webscraping.com

    • 识别网站所用技术

    python检查网站技术模块builtwith
    pip install builtwith

    >>> import builtwith    
    >>> builtwith.parse('http://example.webscraping.com')   
    >>> {u'javascript-frameworks': [u'jQuery', u'Modernizr', u'jQuery UI'], u'web-frameworks': [u'Web2py', u'Twitter Bootstrap'], u'programming-languages': [u'Python'], u'web-servers': [u'Nginx']}    
    
    • 寻找网站所有者

    python中有一个针对whois协议封装的库,其官方文档为
    pip install python-whois

    >>> import whois
    >>> print whois.whois('example.webscraping.com')
    
    • 编写第一个爬虫

    代码参见

    相关文章

      网友评论

        本文标题:第一章 :网络爬虫简介

        本文链接:https://www.haomeiwen.com/subject/jotcgttx.html