什么是爬虫?
爬虫:抓取网页数据的程序
网页: URL统一资源定位符
HTTP/HTTPS协议
数据爬取:1.确定URL地址。2.模拟请求。3.提取数据
通用爬虫vs聚焦爬虫
通用爬虫:
1.目标:尽可能吧互联网上所有网页下载下来,才能在本地服务器上,形成备份
2.实施:将网页已快照的形式保存在服务器上,进行关键字提取和垃圾数据剔除,提供用户一个访问的方式
3.操作:爬取网页->存储数据->内容处理->提供检索
4.搜索引擎排名—PageRank值--根据网站的流量进行顺序排名
1.1 爬取流程
1.选择已有的url地址->提交url地址给搜索引擎->百度站长平台
2.其他网站的外链
3.分析网页内容,提取连接,继续执行上一步操作
1.2搜索引擎获取新网站url地址
1.主动推送url地址->提交url地址给搜索引擎->百度站长平台
2.其他网长的外链
3.搜索引擎和DNS服务商共同处理,收录新的网站信息
1.3通用爬虫限制:Robts协议【约定协议robots.txt】
robots协议:协议指明通用爬虫可以爬取网页的权限
robots协议是一种约定,一般是定公司的程序或者搜索引擎等遵守
1.4 缺陷
1、只能爬取和文本相关的数据,不能提供多媒体(图片、音乐、视频)以及其他二进制文件(代码、脚本等)的数据爬取
2、提供的结果千篇一律,提供给所有人通用的一个结果,不能根据具体的人的类型进行区分
聚焦爬虫
为了解决通用爬虫的缺陷,开发人员针对特定的用户而开发的数据采集程序
特点:面向需求,需求驱动开发
HTTP:超文本传输协议:Hyper Text Transfer Protocal
HTTPS:Secure Hypertext Transfer Protocal 安全的超文本传输协议
HTTP请求:网络上的网页访问,一般使用的都是超文本传输协议,用于传输各种数据进行数据访问,从浏览器发起的每次url地址的访问都称为请求获取数据的过程称为响应数据
抓包工具:在访问过程中,获取网络上传输数据包的工具称为抓包工具
浏览器设置代理进行数据抓包----建议使用谷歌的插件快捷设置不同的代理-----Falcon Proxy
抓包:网络编程中的专业术语名词,指代的是对网络上传输的数据进行抓取解析的过程
抓包工具:可以进行代理配置等,完成对网络传输数据的抓取操作的软件
常见的抓包工具:网络上流传的各种抓包工具有很多,大部分是收费的,即使有破解版也不是特别稳定(广告:使用正版)
一般我们针对浏览器jinz-xing抓包的操作工具
1.使用浏览器自带的开发者工具,进行网络数据的抓包监控【最方便、最直接、信息较为详细】
2.其他专业抓包工具如:Sniffer,wireshark,WinNetCap.
WinSockExpert,SpyNet,fiddler等等,各种不同的抓包工具功能类似,细节处理和适用环境不同而已
3.我们使用fiddler进行抓包和信息分析
urllb2是python中进行网页数据抓取的一个操作模块
在python3中,对urllib2进行了优化和完善,封装成了urllib.request进行处理
网友评论