爬虫(spider)
是我们在对网络上大量结构话数据或者非结构化的数据进行大量爬取,通过性质分为:聚焦爬虫和通用爬虫又可以分为增量爬虫和深度爬虫,通常我们实现的是深度爬虫以及增量爬虫
深度爬虫:
即在对首页面进行数据的爬取不能够满足我们需要的数据量的过程中, 进行筛选下一页的链接进行多个页面大量数据的爬取
增量爬虫
就是我们在对每天的数据进行正常的更新,正常爬取的数据都有一定的时效性,需要我们实时对数据的变化有所敏锐的感觉,然后进行数据的更新
python中的爬虫
# 引入python内置的爬虫包 进行请求网络页面
import urllib
#请求页面
response = urllib.urlopen("http://www.baidu.com")
# 打印页面
print(response.read())
网友评论