相传,那是一个刚刚出道的毛头小子小李(武功不高),因刚刚出入江湖,所以到处行侠仗义,不巧的是他所在的地盘有一个恶霸张三,因小李乐于助人为乐,行侠仗义,以至于抢了恶霸张三的饭碗,因为恶霸张三在这一方净土上是收保护费来维持自己的生计,小李一来,恶霸张三没了饭碗,那应该怎么办呢?恶霸张三当然是给出入江湖的小李狠狠教训一顿,把他从他的净土上赶了出去,虽然小李会武功,那为什么还会被赶出去呢?小李一个人啊,你架不住人多对吧!那小李时候怎么办呢?预想知后事如何,请见下回分解!
出入江湖正像我们初实爬虫,技术上有欠缺,自然是无法立足,那就让我们了解一下spider(专业术语爬虫)这个比较高大上的东西吧!
爬虫(spider):
用户在网络上采集数据的程序!
可以使用任何语言来开发,但是python更为专业!
爬虫的分类:
- 通用爬虫 : 一般都是搜索引擎使用的数据采集程序,会从网络上定时采集各种数据提供给搜索引擎使用[了解即可:度娘/谷哥]
大、泛、全
- 聚焦爬虫:一般是公司/个人针对自己需要的数据,进行定向采集;定向采集~针对性非常高、数据的价值非常高!
大、精确、价值高
根据采集数据的分类
爬虫程序采集数据~需要一个时间周期
在这个时间周期中,采集过的数据,有可能发生变化!所以诞生了两种解决方案!
- 根据采集数据的分类
爬虫程序采集数据~需要一个时间周期
在这个时间周期中,采集过的数据,有可能发生变化!
- 增量爬虫:
采集数据过程中,对已经采集的数据进行检测,如果数据发生变化则进行更新
搜索引擎!
数据处理流程:
目标URL地址(起点) -- -- 得到需要的数据(终点)
数据采集[爬虫程序] -> 数据筛选[描述语言] -> 数据清洗[工具模块] -> 数据分析[分析模块] -> (数据可视化[分析模块])-> 数据[其他软件的基础(大数据/人工智能..)]
爬虫开发步骤:
(1)抓包请求,进行数据请求的分析 [抓包工具:F12工具 | Fiddler抓包工具]
(2)开发爬虫程序
(3)运行程序,测试结果
(4)数据筛选,得到目标数据
简单介绍几个反爬虫技术:
请求伪装: 爬虫请求伪装
自然行为: 自然用户社会学行为
睡眠等待: 间歇性的访问
隐藏踪迹: IP代理池的操作
......
网友评论