美文网首页
爬虫之路

爬虫之路

作者: 程猿先生 | 来源:发表于2017-08-08 23:02 被阅读0次

什么是爬虫?

爬虫:抓取网页数据的程序
网页: URL统一资源定位符
HTTP/HTTPS协议
数据爬取:1.确定URL地址。2.模拟请求。3.提取数据

通用爬虫vs聚焦爬虫

通用爬虫:

1.目标:尽可能吧互联网上所有网页下载下来,才能在本地服务器上,形成备份

2.实施:将网页已快照的形式保存在服务器上,进行关键字提取和垃圾数据剔除,提供用户一个访问的方式

3.操作:爬取网页->存储数据->内容处理->提供检索

4.搜索引擎排名—PageRank值--根据网站的流量进行顺序排名

1.1 爬取流程

1.选择已有的url地址->提交url地址给搜索引擎->百度站长平台

2.其他网站的外链

3.分析网页内容,提取连接,继续执行上一步操作

1.2搜索引擎获取新网站url地址

1.主动推送url地址->提交url地址给搜索引擎->百度站长平台

2.其他网长的外链

3.搜索引擎和DNS服务商共同处理,收录新的网站信息

1.3通用爬虫限制:Robts协议【约定协议robots.txt】

robots协议:协议指明通用爬虫可以爬取网页的权限
robots协议是一种约定,一般是定公司的程序或者搜索引擎等遵守

1.4 缺陷

1、只能爬取和文本相关的数据,不能提供多媒体(图片、音乐、视频)以及其他二进制文件(代码、脚本等)的数据爬取

2、提供的结果千篇一律,提供给所有人通用的一个结果,不能根据具体的人的类型进行区分

聚焦爬虫

为了解决通用爬虫的缺陷,开发人员针对特定的用户而开发的数据采集程序

特点:面向需求,需求驱动开发

HTTP:超文本传输协议:Hyper Text Transfer Protocal

HTTPS:Secure Hypertext Transfer Protocal 安全的超文本传输协议

HTTP请求:网络上的网页访问,一般使用的都是超文本传输协议,用于传输各种数据进行数据访问,从浏览器发起的每次url地址的访问都称为请求获取数据的过程称为响应数据

抓包工具:在访问过程中,获取网络上传输数据包的工具称为抓包工具

浏览器设置代理进行数据抓包----建议使用谷歌的插件快捷设置不同的代理-----Falcon Proxy

抓包:网络编程中的专业术语名词,指代的是对网络上传输的数据进行抓取解析的过程

抓包工具:可以进行代理配置等,完成对网络传输数据的抓取操作的软件

常见的抓包工具:网络上流传的各种抓包工具有很多,大部分是收费的,即使有破解版也不是特别稳定(广告:使用正版)

一般我们针对浏览器jinz-xing抓包的操作工具

1.使用浏览器自带的开发者工具,进行网络数据的抓包监控【最方便、最直接、信息较为详细】
2.其他专业抓包工具如:Sniffer,wireshark,WinNetCap.
WinSockExpert,SpyNet,fiddler等等,各种不同的抓包工具功能类似,细节处理和适用环境不同而已
3.我们使用fiddler进行抓包和信息分析

urllb2是python中进行网页数据抓取的一个操作模块

在python3中,对urllib2进行了优化和完善,封装成了urllib.request进行处理

相关文章

网友评论

      本文标题:爬虫之路

      本文链接:https://www.haomeiwen.com/subject/crbxrxtx.html