初始爬虫--少侠佩刀入江湖

作者: ___大鱼___ | 来源:发表于2018-05-15 20:33 被阅读85次

相传,那是一个刚刚出道的毛头小子小李(武功不高),因刚刚出入江湖,所以到处行侠仗义,不巧的是他所在的地盘有一个恶霸张三,因小李乐于助人为乐,行侠仗义,以至于抢了恶霸张三的饭碗,因为恶霸张三在这一方净土上是收保护费来维持自己的生计,小李一来,恶霸张三没了饭碗,那应该怎么办呢?恶霸张三当然是给出入江湖的小李狠狠教训一顿,把他从他的净土上赶了出去,虽然小李会武功,那为什么还会被赶出去呢?小李一个人啊,你架不住人多对吧!那小李时候怎么办呢?预想知后事如何,请见下回分解!

出入江湖正像我们初实爬虫,技术上有欠缺,自然是无法立足,那就让我们了解一下spider(专业术语爬虫)这个比较高大上的东西吧!

爬虫(spider):

用户在网络上采集数据的程序!
可以使用任何语言来开发,但是python更为专业!

爬虫的分类:

通用爬虫 : 一般都是搜索引擎使用的数据采集程序，会从网络上定时采集各种数据提供给搜索引擎使用[了解即可：度娘/谷哥]
大、泛、全

聚焦爬虫：一般是公司/个人针对自己需要的数据，进行定向采集；定向采集~针对性非常高、数据的价值非常高!
大、精确、价值高

根据采集数据的分类

爬虫程序采集数据~需要一个时间周期
在这个时间周期中，采集过的数据，有可能发生变化！所以诞生了两种解决方案!

根据采集数据的分类
爬虫程序采集数据~需要一个时间周期
在这个时间周期中，采集过的数据，有可能发生变化！

增量爬虫：
采集数据过程中，对已经采集的数据进行检测，如果数据发生变化则进行更新
搜索引擎！

数据处理流程:

目标URL地址(起点) -- -- 得到需要的数据(终点)
数据采集[爬虫程序] -> 数据筛选[描述语言] -> 数据清洗[工具模块] -> 数据分析[分析模块] -> (数据可视化[分析模块])-> 数据[其他软件的基础(大数据/人工智能..)]

爬虫开发步骤：

(1)抓包请求，进行数据请求的分析 [抓包工具：F12工具 | Fiddler抓包工具]
(2)开发爬虫程序
(3)运行程序，测试结果
(4)数据筛选，得到目标数据

简单介绍几个反爬虫技术:

请求伪装: 爬虫请求伪装
自然行为: 自然用户社会学行为
睡眠等待: 间歇性的访问
隐藏踪迹: IP代理池的操作
......

网友评论

小小同:抓包工具是什么？
___大鱼___:@小小同 fiddler之类的辅助爬虫的工具

本文标题：初始爬虫--少侠佩刀入江湖

本文链接：https://www.haomeiwen.com/subject/dabydftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

初始爬虫--少侠佩刀入江湖

出入江湖正像我们初实爬虫,技术上有欠缺,自然是无法立足,那就让我们了解一下spider(专业术语爬虫)这个比较高大上的东西吧!

爬虫(spider):

爬虫的分类:

根据采集数据的分类

数据处理流程:

爬虫开发步骤：

简单介绍几个反爬虫技术:

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

爬虫专题

大数据爬虫Python AI Sql

初始爬虫--少侠佩刀入江湖

出入江湖正像我们初实爬虫,技术上有欠缺,自然是无法立足,那就让我们了解一下spider(专业术语爬虫)这个比较高大上的东西吧!

爬虫(spider):

爬虫的分类:

根据采集数据的分类

数据处理流程:

爬虫开发步骤：

简单介绍几个反爬虫技术:

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

爬虫专题

大数据 爬虫Python AI Sql

大数据爬虫Python AI Sql