爬虫

作者: 清酒金杯空对月 | 来源:发表于2019-01-27 10:49 被阅读0次

    爬虫:

    以上平台或者机构不能够提供我们需要的数据,
    这时就需要爬虫工程师,根据需求从互联网上抓取数据?

    什么是爬虫?

    就是一段自动抓取互联网数据的程序或脚本

    爬虫最基本的步骤:

    1.寻找目标url,发起请求
    2.获取请求的响应结果,分析响应结果
    3.从响应结果中提取数据
    a.第一部分,从网页中提取的目标数据
    b.如果存在新的url地址,则提取,继续发起请求

    爬虫结束:

    所有的目标url全部请求完毕,爬虫结束

    爬虫的分类(通用爬虫,聚焦爬虫):

    通用爬虫:

    是搜索引擎的重要组成部分
    作用和目的:尽可能全的将互联网上所有的网页下载到本地,通过分词,去噪等进行预处理,处理后进行数据的持久化(镜像备份),然后提取检索系统

    爬虫的用途

    1.搜索引擎
    2.咨询新闻网站
    3.购物助手(慧慧购物)
    4.数据分析与研究积累原始数据资源
    5.抢票软件等

    获取数据的步骤):

    a.获取一些种子url,放入待爬取队列
    b.从待爬取队列中取出url发起请求,将获取的响应结果
    进行处理,之后存入本地,然后将已爬取的url,放入已爬
    取队列
    c.从响应结果中获取外链(url),将url放入待爬取队列中

    DNS服务:将域名转换为ip的技术

    搜索引擎如何获取新网站的url:

    1.向搜索引擎直接提交url地址(https://ziyuan.baidu.com/linksubmit/url)
    2.通过网页的外链
    3.跟DNS服务商合作,新网站注册的域对应的网
    站将会迅速被搜索引擎抓取

    搜索引擎的排名:

    1.根据用户的访问量和网站的流量进行的排名
    2.竞价排名:根据价钱进行网站的排名

    搜索引擎需要遵守robot协议:

    是一个规范,网站通过robot协议告诉搜索引擎哪些页面可以爬取,哪些页面不可以爬取
    https://www.taobao.com/robots.txt
    User-agent:  Baiduspider(搜索引擎爬虫名称)
    Allow:  /article (允许爬取的url)
    Disallow:  /product/ (不允许爬取的url)
    

    搜索引擎的缺点:

    1.只能够获取简单的文件数据,大型的二进制数据(音频,视频)都不能够获取
    2.搜索引擎搜索的结果千篇一律,没有办法根据特定的用户,特定的需求获取特定的数据
    3.搜索引擎搜索结果99%并没用

    由于搜索引擎的缺点,产生了聚焦爬虫

    聚焦爬虫:

    是面向主题,面向需求的爬虫,只获取跟需求相关的数据

    相关文章

      网友评论

          本文标题:爬虫

          本文链接:https://www.haomeiwen.com/subject/eajgjqtx.html