美文网首页
爬虫-原理和流程

爬虫-原理和流程

作者: Vanna_bot | 来源:发表于2018-12-26 18:22 被阅读0次

    爬虫原理

    模拟浏览器发送网络请求,接收请求响应

    爬虫分类

    通用爬虫:搜索引擎的爬虫
    聚焦爬虫:针对特定网站的爬虫
    积累式爬虫:从开始运行到达到停止条件过程中不断爬取数据,会进行去重操作
    增量式爬虫:只爬取新产生或者发生变化网页的爬虫
    深网爬虫:隐藏在搜索表单或登录表单之后的数据,需要用户提交关键词才能登陆并获得的页面(比如某网站VIP会员)

    爬虫流程

    1.向起始url发送请求,并获取响应
    2.对响应进行提取
    ——如果提取url,则继续循环①
    ——如果提取数据,则将数据进行保存

    robots协议

    Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)
    网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
    Robots协议是一个道德层面的约定,爬虫作者无需遵守该协议

    相关文章

      网友评论

          本文标题:爬虫-原理和流程

          本文链接:https://www.haomeiwen.com/subject/qflklqtx.html