美文网首页
Py爬虫2:分类及robots协议

Py爬虫2:分类及robots协议

作者: _百草_ | 来源:发表于2022-07-11 09:48 被阅读0次

1、概述

爬虫,即网页爬虫,网页蜘蛛、网络机器人、网络蚂蚁
-搜索引擎,网络爬虫的应用
爬取特定网站、特定类别的数据
爬虫是数据的获取;但后期数据处理、数据存储……
向网站发起请求,获取资源后分析提取有用数据的程序


2、爬虫分类

爬虫2大类
  • 爬虫一般流程


    爬虫流程
  • 模拟浏览器发送请求
  • 获取响应内容
    返回:HTML/Json/二进制数据(图片或视频等)
  • 解析响应内容
    解析HTML数据:正则、xpath(为主)、beautiful soup、css
    解析json数据:json模块
    解析二进制数据:以wb方式写入文件
  • 保存数据
    数据库或文件

3、robots协议

君子协议


robots协议

python 爬虫框架

主要分为5部分,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)

  • 调度器
    URL管理器、下载器、解析器之间的协调
  • URL管理器
    待爬取URL和已爬取URL,防止重复抓取
    三种方式:登录、代理、缓存数据库
  • 网页下载器
    传入URL地址来下载网页,将网页转为字符串
    urllib(包括登录、代理、cookie)、requests
  • 网页解析器
    网页字符串进行解析,提取有用的信息
    如正则表达式、html.parser、beautifulsoup、lxml
    注:后面三种是以DOM树的方式进行解析
  • 应用程序
    从网页中提取的有用数据组成一个应用
    调度器协调工作

相关文章

  • Py爬虫2:分类及robots协议

    1、概述 爬虫,即网页爬虫,网页蜘蛛、网络机器人、网络蚂蚁-搜索引擎,网络爬虫的应用爬取特定网站、特定类别的数据爬...

  • 人生不得已——Python爬虫 robots协议

    关于robots协议 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots ...

  • 亚马逊robots协议解析

    1.robots协议 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots ...

  • 网络爬虫排除标准——robots协议

    Robots协议 “网络爬虫排除标准”(Robots Exclusion Protocol)也称为爬虫协议、机器人...

  • Robots协议

    好的网络爬虫,首先需要遵守Robots协议。Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除...

  • 认识robots协议

    robots协议的作用: Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robot...

  • 关于购物网站及网页小游戏的robots协议

    Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion P...

  • robots

    Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion P...

  • 谷歌:爬虫协议与标准规范

    Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion P...

  • Robots.txt详解

    Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion P...

网友评论

      本文标题:Py爬虫2:分类及robots协议

      本文链接:https://www.haomeiwen.com/subject/wksgbrtx.html