美文网首页用python写网络爬虫
第一章 :网络爬虫简介

第一章 :网络爬虫简介

作者: Bugl0v3r | 来源:发表于2017-03-01 15:42 被阅读72次

第一章 :网络爬虫简介

1.网络爬虫是什么?

2.网络爬虫何时有用?

3.背景调研

  • 检查robots.txt

大都数网站都会定义robots.txt 文件。这样可以让爬虫了解爬取该网站时存在哪些限制。在爬取前检查该文件可以最小化爬虫被禁的可能,而且还能发现和网站结构相关的线索。
关于robots.txt协议的更多信息可参见

  • 检查网站地图

网站提供的sitemap文件(即网站地图)可以帮助爬虫定位最新的内容,而无须爬取每一个网页 。
网站地图标准的定义

  • 估算网站大小

目标网站的大小会影响我们如何进行爬取。对于大型网站(几百万个网页)则需要用分布式爬虫。
估算一个网站大小最简单的方法是检查Google爬虫的结果,当然百度也可以。
如搜索site example.webscraping.com

  • 识别网站所用技术

python检查网站技术模块builtwith
pip install builtwith

>>> import builtwith    
>>> builtwith.parse('http://example.webscraping.com')   
>>> {u'javascript-frameworks': [u'jQuery', u'Modernizr', u'jQuery UI'], u'web-frameworks': [u'Web2py', u'Twitter Bootstrap'], u'programming-languages': [u'Python'], u'web-servers': [u'Nginx']}    
  • 寻找网站所有者

python中有一个针对whois协议封装的库,其官方文档为
pip install python-whois

>>> import whois
>>> print whois.whois('example.webscraping.com')
  • 编写第一个爬虫

代码参见

相关文章

  • 第一章 :网络爬虫简介

    第一章 :网络爬虫简介 1.网络爬虫是什么? 2.网络爬虫何时有用? 3.背景调研 检查robots.txt 大都...

  • 第1章 网络爬虫简介

    第一章 网络爬虫简介 1.1 网络爬虫何时有用 1.2 背景调研 1.2.1 检查robots.txt文件 1.2...

  • 1-基本概念

    简介 为什么选择Python做爬虫 需要技能 爬虫与反爬虫 网络爬虫类型 通用网络爬虫 聚焦网络爬虫 增量式网络爬...

  • 爬虫01:概述

    爬虫概述 1.目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2.章节内容 2.1爬虫...

  • 网络爬虫简介

    网络爬虫 网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 通用爬虫的一般步骤 1.抓取页面2....

  • python爬虫01

    爬虫概述 1. 目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2. 章节内容 2.1...

  • 【1】爬虫概述

    爬虫概述 1. 目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2. 章节内容 2.1...

  • 爬虫0010:概述

    爬虫概述 ——编辑:大牧莫邪 1. 目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2...

  • 爬虫001

    爬虫概述 ——骑猪追火车 1、目录清单 1、爬虫简介 2、通用爬虫和聚焦爬虫 3、网络请求是怎么回事儿 4、网络数...

  • 30个小时搞定Python网络爬虫

    下载地址:30个小时搞定Python网络爬虫 课程目录: ├─第一章节:Python 网络爬虫之基础 │ 1、...

网友评论

    本文标题:第一章 :网络爬虫简介

    本文链接:https://www.haomeiwen.com/subject/jotcgttx.html