了解爬虫

作者: 繁花落尽不忘初心 | 来源:发表于2018-05-28 20:33 被阅读0次

一:>什么是爬虫?

        *可以针对目标地址进行数据采集的计算机程序                                                                                               *爬虫程序:发送请求给服务器,获取服务器数据                                                                                           * 爬虫程序发送的请求可以通过抓包(fiddler,wareshark等)来实现                                                           * 浏览器发送的请求可以通过F12来实现

二:>爬虫的分类(通用爬虫 VS 聚焦爬虫)(累积爬虫 VS 增量爬虫)

              *通用爬虫:一般使用在搜索引擎中的,在进行数据采集的过程中,要遵循Robot协议,他可以将                                      自己的网站让更多的人通过搜索引擎访问(Robot协议:是一种约定的规范,针对通                                    过爬虫进行的数据采集限制)

              *聚焦爬虫:一般是自己独立开发的爬虫采集数据的程序,针对性较强,每个数据采集任务,都有                                  可能要开发一套新的项目

              *累积爬虫:历史数据不会发生变化,一旦数据执行完成,数据就是固定不变的(PS:采集彩票历                                    史数据,方便对下一期进行预测评估)

              *增量爬虫:需要实时对历史采集的数据进行更新(PS:新闻网页,微博热搜)

三:>爬虫的实现

开发环境:python2.7                                    开发工具:pycharm

python2.7使用 ascii 编码,不支持中文,所以写代码第一行的位置,要添加支持中文的注释(coding:utf-8),使用python2.7的原因是开发周期短,操作更加灵活且在爬虫方向支持的模板更多,还可通过“Java,PHP,C++,C#,Ruby”等实现爬虫

四:>爬虫的操作

1.代码开发:urllib2 底层数据的采集采用 urlopen() 函数,可以向服务器发送请求

2.伪造请求:伪装浏览器请求                                                                                                                                             *请求对象:请求头数据,请求体数据,请求方式                                                                                           *在这里主要通过请求头的 User-agent 设置,完成浏览器请求的伪装    (请求中的K键值单词                      首字母必须大写)                                                                                                                                           *请求核心对象:urllib2.Request 对象

3.模仿用户行为:只有在特殊的情况下才会使用,因为随机休眠严重影响爬虫采集数据的效率

4.隐藏客户端:使用IP代理(免费代理&收费代理),代理真实客户端完成对服务器数据的访问                                       *正向代理(代购):代理客户端发起请求,向服务器发送数据,隐藏客户端                                               *反向代理(代理商):代理的服务端,隐藏真实服务器信息                                                                         * urlopen 底层操作:                                                                                                                                                                   *操作对象:urllib2.ProxyHandler( { 填写代理的IP地址 } )                                                                               *开锁对象:urllib2.build_opener(handler)                                                                                                 *发送请求:res = opener.open(url)

相关文章

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

  • 了解爬虫

    一:>什么是爬虫? *可以针对目标地址进行数据采集的计算机程序 ...

  • 爬虫了解

    爬虫流程 使用浏览器驱动器或者app驱动器,模拟人工操作,获取接口响应或者有意义的DOM数据;对数据进行解析;解析...

  • 3分钟带你了解世界第一语言Python 入门上手也这么简单!

    一、Python入门 1. Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入...

  • Python爬虫入门

    注:采转归档,自己学习查询使用 Python爬虫入门(1):综述Python爬虫入门(2):爬虫基础了解Pytho...

  • 零基础学习爬虫并实战

    本篇主要从爬虫是什么、爬虫的一般流程、爬虫各个流程的实现方法、爬虫实例四个方面分享零基础了解爬虫,并进行简单的实战...

  • 爬虫框架pyspider的使用

    概要:了解了爬虫的基础知识后,接下来我们来使用框架来写爬虫,用框架会使我们写爬虫更加简单,接下来我们来了解一下,p...

  • 大数据入门——爬虫的基本套路

    大数据入门——爬虫的基本套路 数据分析师必须要会的技能就是爬虫,在开始学习前先基本了解下爬虫。 爬虫有什么作用? ...

  • Python爬虫入门--了解爬虫---什么是爬虫?

    Python爬虫入门--了解爬虫 什么是爬虫? 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的...

  • 了解爬虫1

    crapy爬虫=数据采集 简单:静态网站 难:动态、加密(逆向)、验证码(滑动、点击、倒立) 数据为王: 数据怎么...

网友评论

    本文标题:了解爬虫

    本文链接:https://www.haomeiwen.com/subject/mwxnjftx.html