什么是爬虫？

爬虫：抓取网页数据的程序
网页： URL统一资源定位符
HTTP/HTTPS协议
数据爬取:1.确定URL地址。2.模拟请求。3.提取数据

通用爬虫vs聚焦爬虫

通用爬虫：

1.目标：尽可能吧互联网上所有网页下载下来，才能在本地服务器上，形成备份

2.实施：将网页已快照的形式保存在服务器上，进行关键字提取和垃圾数据剔除，提供用户一个访问的方式

3.操作：爬取网页->存储数据->内容处理->提供检索

4.搜索引擎排名—PageRank值--根据网站的流量进行顺序排名

1.1 爬取流程

1.选择已有的url地址->提交url地址给搜索引擎->百度站长平台

2.其他网站的外链

3.分析网页内容，提取连接，继续执行上一步操作

1.2搜索引擎获取新网站url地址

1.主动推送url地址->提交url地址给搜索引擎->百度站长平台

2.其他网长的外链

3.搜索引擎和DNS服务商共同处理，收录新的网站信息

1.3通用爬虫限制：Robts协议【约定协议robots.txt】

robots协议：协议指明通用爬虫可以爬取网页的权限
robots协议是一种约定，一般是定公司的程序或者搜索引擎等遵守

1.4 缺陷

1、只能爬取和文本相关的数据，不能提供多媒体（图片、音乐、视频）以及其他二进制文件（代码、脚本等）的数据爬取

2、提供的结果千篇一律，提供给所有人通用的一个结果，不能根据具体的人的类型进行区分

聚焦爬虫

为了解决通用爬虫的缺陷，开发人员针对特定的用户而开发的数据采集程序

特点：面向需求，需求驱动开发

HTTP：超文本传输协议：Hyper Text Transfer Protocal

HTTPS:Secure Hypertext Transfer Protocal 安全的超文本传输协议

HTTP请求：网络上的网页访问，一般使用的都是超文本传输协议，用于传输各种数据进行数据访问，从浏览器发起的每次url地址的访问都称为请求获取数据的过程称为响应数据

抓包工具：在访问过程中，获取网络上传输数据包的工具称为抓包工具

浏览器设置代理进行数据抓包----建议使用谷歌的插件快捷设置不同的代理-----Falcon Proxy

抓包：网络编程中的专业术语名词，指代的是对网络上传输的数据进行抓取解析的过程

抓包工具：可以进行代理配置等，完成对网络传输数据的抓取操作的软件

常见的抓包工具：网络上流传的各种抓包工具有很多，大部分是收费的，即使有破解版也不是特别稳定（广告：使用正版）

一般我们针对浏览器jinz-xing抓包的操作工具

1.使用浏览器自带的开发者工具，进行网络数据的抓包监控【最方便、最直接、信息较为详细】
2.其他专业抓包工具如：Sniffer，wireshark，WinNetCap.
WinSockExpert,SpyNet,fiddler等等，各种不同的抓包工具功能类似，细节处理和适用环境不同而已
3.我们使用fiddler进行抓包和信息分析

urllb2是python中进行网页数据抓取的一个操作模块

在python3中，对urllib2进行了优化和完善，封装成了urllib.request进行处理