爬虫

作者: 上心心上 | 来源:发表于2019-02-17 17:37 被阅读144次

11.20-11.26
爬虫入门基础
01-认识爬虫
爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫
（了解）通用爬虫和聚焦爬虫--爬虫基础教程（python）（二）
Python 网络爬虫（一）
7.爬虫概述
1-基本概念
认识爬虫
爬虫入门

#爬虫最基本的步骤：

1.寻找目标url，发起请求

2.获取请求的响应结果，分析相应结果

3.从响应结果中提取数据

a.第一部分，从网页中提取的目标数据

b.如果存在新的url地址，则提取，继续发起请求

爬虫结束：所有的目标url全部请求完毕，爬虫结束

数据的用途：

1.可以爬取数据，写自己的网站

2.搜索引擎

3.购物助手

4.日常数据的基本分析（知乎数据冰山专栏）

做爬虫并不只有python可以完成：

java php c/c++ switch ....

java:试python写爬虫的最大的竞争对手，java的发展周期长，生态圈都比较完善，也有很多第三方库的支持，java的代码量比较大，开发的成本比较高，后期维护也比较繁琐。（）

php：php曾经被叫做世界上最好的语言（一般用来做后端的），也可以用来写爬虫，但是对多任务的支持不太好，爬虫对效率要求比较高，所以一般不使用php写爬虫。

c/c++：比较偏向于底层的语言，代码的运行效率高，学习门槛非常高，代码成型比较慢。

python：代码简单易懂，并且对第三方的库也有很多，python自带的urllib网络请求模块，requests网络请求模块，网络解析库xpath，beautifulsoup4，pyquery等等，还有成熟高效稳定的爬虫框架scrapy（pyspider）等等，并且还支持分布式爬虫（scrapy-redis）框架

爬虫的分类（通用爬虫，聚焦爬虫）：

通用爬虫：是搜索引擎的重要组成部分

作用和目的：尽可能全的将互联网上所有的网页下载到本地，通过分词，去噪等进行预处理，处理后进行数据的持久化