初始爬虫--少侠佩刀入江湖

作者: ___大鱼___ | 来源:发表于2018-05-15 20:33 被阅读85次

    相传,那是一个刚刚出道的毛头小子小李(武功不高),因刚刚出入江湖,所以到处行侠仗义,不巧的是他所在的地盘有一个恶霸张三,因小李乐于助人为乐,行侠仗义,以至于抢了恶霸张三的饭碗,因为恶霸张三在这一方净土上是收保护费来维持自己的生计,小李一来,恶霸张三没了饭碗,那应该怎么办呢?恶霸张三当然是给出入江湖的小李狠狠教训一顿,把他从他的净土上赶了出去,虽然小李会武功,那为什么还会被赶出去呢?小李一个人啊,你架不住人多对吧!那小李时候怎么办呢?预想知后事如何,请见下回分解!

     出入江湖正像我们初实爬虫,技术上有欠缺,自然是无法立足,那就让我们了解一下spider(专业术语爬虫)这个比较高大上的东西吧!

    爬虫(spider):

     用户在网络上采集数据的程序!
     可以使用任何语言来开发,但是python更为专业!

    爬虫的分类:
    1. 通用爬虫 : 一般都是搜索引擎使用的数据采集程序,会从网络上定时采集各种数据提供给搜索引擎使用[了解即可:度娘/谷哥]
      大、泛、全
    1. 聚焦爬虫:一般是公司/个人针对自己需要的数据,进行定向采集;定向采集~针对性非常高、数据的价值非常高!
      大、精确、价值高
    根据采集数据的分类

    爬虫程序采集数据~需要一个时间周期
    在这个时间周期中,采集过的数据,有可能发生变化!所以诞生了两种解决方案!

    1. 根据采集数据的分类
      爬虫程序采集数据~需要一个时间周期
      在这个时间周期中,采集过的数据,有可能发生变化!
    1. 增量爬虫:
      采集数据过程中,对已经采集的数据进行检测,如果数据发生变化则进行更新
      搜索引擎!
    数据处理流程:

    目标URL地址(起点) -- -- 得到需要的数据(终点)
    数据采集[爬虫程序] -> 数据筛选[描述语言] -> 数据清洗[工具模块] -> 数据分析[分析模块] -> (数据可视化[分析模块])-> 数据[其他软件的基础(大数据/人工智能..)]

    爬虫开发步骤:

    (1)抓包请求,进行数据请求的分析 [抓包工具:F12工具 | Fiddler抓包工具]
    (2)开发爬虫程序
    (3)运行程序,测试结果
    (4)数据筛选,得到目标数据

    简单介绍几个反爬虫技术:

    请求伪装: 爬虫请求伪装
    自然行为: 自然用户社会学行为
    睡眠等待: 间歇性的访问
    隐藏踪迹: IP代理池的操作
    ......

    相关文章

      网友评论

      本文标题:初始爬虫--少侠佩刀入江湖

      本文链接:https://www.haomeiwen.com/subject/dabydftx.html