在数据科学领域阶段,很多人往往将焦点着眼于数据的处理和分析,殊不知数据本身才是最大的价值,无论是看上去再无用的数据,往往都蕴含着量变引起质变的魅力,而如今是“大数据”的时代,互联网每天产生约33ZB(2018年,1ZB=10244GB)的数据,所以:
Data is treasure!
爬虫的概念:
简单的来说,爬虫就是一个模拟人类请求网站行为的脚本。它通过自动请求网页、将数据抓取下来,然后使用一定的规则提取有价值的数据。
爬虫的例子:
- 数据分析研究软件
- 搜索引擎
- 抢票软件
爬虫的类别:
- 聚焦爬虫 (自己学习的内容~~)
在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。 - 通用爬虫
搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分。主要是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份
网友评论