美文网首页
数据的获取——爬虫

数据的获取——爬虫

作者: ZzzZBbbB | 来源:发表于2019-06-15 13:13 被阅读0次

    在数据科学领域阶段,很多人往往将焦点着眼于数据的处理和分析,殊不知数据本身才是最大的价值,无论是看上去再无用的数据,往往都蕴含着量变引起质变的魅力,而如今是“大数据”的时代,互联网每天产生约33ZB(2018年,1ZB=10244GB)的数据,所以:

    Data is treasure!

    爬虫的概念:

    简单的来说,爬虫就是一个模拟人类请求网站行为的脚本。它通过自动请求网页、将数据抓取下来,然后使用一定的规则提取有价值的数据。

    爬虫的例子:

    • 数据分析研究软件
    • 搜索引擎
    • 抢票软件

    爬虫的类别:

    • 聚焦爬虫 (自己学习的内容~~)
      在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。
    • 通用爬虫
      搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分。主要是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份

    相关文章

      网友评论

          本文标题:数据的获取——爬虫

          本文链接:https://www.haomeiwen.com/subject/jkhbfctx.html