Py爬虫2：分类及robots协议

Py爬虫2：分类及robots协议

作者: _百草_ | 来源:发表于2022-07-11 09:48 被阅读0次

Py爬虫2：分类及robots协议
人生不得已——Python爬虫 robots协议
亚马逊robots协议解析
网络爬虫排除标准——robots协议
Robots协议
认识robots协议
关于购物网站及网页小游戏的robots协议
robots
谷歌：爬虫协议与标准规范
Robots.txt详解

1、概述

爬虫，即网页爬虫，网页蜘蛛、网络机器人、网络蚂蚁
-搜索引擎，网络爬虫的应用
爬取特定网站、特定类别的数据
爬虫是数据的获取；但后期数据处理、数据存储……
向网站发起请求，获取资源后分析提取有用数据的程序

2、爬虫分类

爬虫2大类

爬虫一般流程

爬虫流程
模拟浏览器发送请求
获取响应内容
返回：HTML/Json/二进制数据(图片或视频等)
解析响应内容
解析HTML数据:正则、xpath(为主)、beautiful soup、css
解析json数据：json模块
解析二进制数据：以wb方式写入文件
保存数据
数据库或文件

3、robots协议

君子协议

robots协议

python 爬虫框架

主要分为5部分，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)

调度器
URL管理器、下载器、解析器之间的协调
URL管理器
待爬取URL和已爬取URL,防止重复抓取
三种方式：登录、代理、缓存数据库
网页下载器
传入URL地址来下载网页，将网页转为字符串
有urllib(包括登录、代理、cookie)、requests
网页解析器
网页字符串进行解析，提取有用的信息
如正则表达式、html.parser、beautifulsoup、lxml
注：后面三种是以DOM树的方式进行解析
应用程序
从网页中提取的有用数据组成一个应用
调度器协调工作

相关文章

Py爬虫2：分类及robots协议
1、概述爬虫，即网页爬虫，网页蜘蛛、网络机器人、网络蚂蚁-搜索引擎，网络爬虫的应用爬取特定网站、特定类别的数据爬...
人生不得已——Python爬虫 robots协议
关于robots协议 Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots ...
亚马逊robots协议解析
1.robots协议 Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots ...
网络爬虫排除标准——robots协议
Robots协议 “网络爬虫排除标准”（Robots Exclusion Protocol）也称为爬虫协议、机器人...
Robots协议
好的网络爬虫，首先需要遵守Robots协议。Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除...
认识robots协议
robots协议的作用： Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robot...
关于购物网站及网页小游戏的robots协议
Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion P...
robots
Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion P...
谷歌：爬虫协议与标准规范
Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion P...
Robots.txt详解
Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion P...

网友评论

本文标题：Py爬虫2：分类及robots协议

本文链接：https://www.haomeiwen.com/subject/wksgbrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Py爬虫2：分类及robots协议|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！