#爬虫最基本的步骤:
1.寻找目标url,发起请求
2.获取请求的响应结果,分析相应结果
3.从响应结果中提取数据
a.第一部分,从网页中提取的目标数据
b.如果存在新的url地址,则提取,继续发起请求
爬虫结束:所有的目标url全部请求完毕,爬虫结束
数据的用途:
1.可以爬取数据,写自己的网站
2.搜索引擎
3.购物助手
4.日常数据的基本分析(知乎数据冰山专栏)
做爬虫并不只有python可以完成:
java php c/c++ switch ....
java:试python写爬虫的最大的竞争对手,java的发展周期长,生态圈都比较完善,也有很多第三方库的支持,java的代码量比较大,开发的成本比较高,后期维护也比较繁琐。()
php:php曾经被叫做世界上最好的语言(一般用来做后端的),也可以用来写爬虫,但是对多任务的支持不太好,爬虫对效率要求比较高,所以一般不使用php写爬虫。
c/c++:比较偏向于底层的语言,代码的运行效率高,学习门槛非常高,代码成型比较慢。
python:代码简单易懂,并且对第三方的库也有很多,python自带的urllib网络请求模块,requests网络请求模块,网络解析库xpath,beautifulsoup4,pyquery等等,还有成熟高效稳定的爬虫框架scrapy(pyspider)等等,并且还支持分布式爬虫(scrapy-redis)框架
爬虫的分类(通用爬虫,聚焦爬虫):
通用爬虫:是搜索引擎的重要组成部分
作用和目的:尽可能全的将互联网上所有的网页下载到本地,通过分词,去噪等进行预处理,处理后进行数据的持久化
网友评论