美文网首页
爬虫之路

爬虫之路

作者: 程猿先生 | 来源:发表于2017-08-08 23:02 被阅读0次

    什么是爬虫?

    爬虫:抓取网页数据的程序
    网页: URL统一资源定位符
    HTTP/HTTPS协议
    数据爬取:1.确定URL地址。2.模拟请求。3.提取数据

    通用爬虫vs聚焦爬虫

    通用爬虫:

    1.目标:尽可能吧互联网上所有网页下载下来,才能在本地服务器上,形成备份

    2.实施:将网页已快照的形式保存在服务器上,进行关键字提取和垃圾数据剔除,提供用户一个访问的方式

    3.操作:爬取网页->存储数据->内容处理->提供检索

    4.搜索引擎排名—PageRank值--根据网站的流量进行顺序排名

    1.1 爬取流程

    1.选择已有的url地址->提交url地址给搜索引擎->百度站长平台

    2.其他网站的外链

    3.分析网页内容,提取连接,继续执行上一步操作

    1.2搜索引擎获取新网站url地址

    1.主动推送url地址->提交url地址给搜索引擎->百度站长平台

    2.其他网长的外链

    3.搜索引擎和DNS服务商共同处理,收录新的网站信息

    1.3通用爬虫限制:Robts协议【约定协议robots.txt】

    robots协议:协议指明通用爬虫可以爬取网页的权限
    robots协议是一种约定,一般是定公司的程序或者搜索引擎等遵守

    1.4 缺陷

    1、只能爬取和文本相关的数据,不能提供多媒体(图片、音乐、视频)以及其他二进制文件(代码、脚本等)的数据爬取

    2、提供的结果千篇一律,提供给所有人通用的一个结果,不能根据具体的人的类型进行区分

    聚焦爬虫

    为了解决通用爬虫的缺陷,开发人员针对特定的用户而开发的数据采集程序

    特点:面向需求,需求驱动开发

    HTTP:超文本传输协议:Hyper Text Transfer Protocal

    HTTPS:Secure Hypertext Transfer Protocal 安全的超文本传输协议

    HTTP请求:网络上的网页访问,一般使用的都是超文本传输协议,用于传输各种数据进行数据访问,从浏览器发起的每次url地址的访问都称为请求获取数据的过程称为响应数据

    抓包工具:在访问过程中,获取网络上传输数据包的工具称为抓包工具

    浏览器设置代理进行数据抓包----建议使用谷歌的插件快捷设置不同的代理-----Falcon Proxy

    抓包:网络编程中的专业术语名词,指代的是对网络上传输的数据进行抓取解析的过程

    抓包工具:可以进行代理配置等,完成对网络传输数据的抓取操作的软件

    常见的抓包工具:网络上流传的各种抓包工具有很多,大部分是收费的,即使有破解版也不是特别稳定(广告:使用正版)

    一般我们针对浏览器jinz-xing抓包的操作工具

    1.使用浏览器自带的开发者工具,进行网络数据的抓包监控【最方便、最直接、信息较为详细】
    2.其他专业抓包工具如:Sniffer,wireshark,WinNetCap.
    WinSockExpert,SpyNet,fiddler等等,各种不同的抓包工具功能类似,细节处理和适用环境不同而已
    3.我们使用fiddler进行抓包和信息分析

    urllb2是python中进行网页数据抓取的一个操作模块

    在python3中,对urllib2进行了优化和完善,封装成了urllib.request进行处理

    相关文章

      网友评论

          本文标题:爬虫之路

          本文链接:https://www.haomeiwen.com/subject/crbxrxtx.html