爬虫基本原理介绍

爬虫基本原理介绍

作者: 慕慕她爸 | 来源:发表于2019-08-25 20:23 被阅读0次

爬虫基本原理介绍
Python3 爬虫介绍
学渣讲爬虫之Python爬虫从入门到出门（第一讲）
一周内从0到1掌握Node爬虫技巧（二）
2018-12-24 网页爬虫第一天
Python 爬虫_动态网页抓取
【Python】Python3网络爬虫实战-15、爬虫基础：HT
python爬虫day-4（爬虫的基本原理）
爬虫基本原理
1. 爬虫基础

什么是爬虫
请求网站并提取数据的自动化程序
爬虫基本请求

发起请求
通过http库向目标站点发起请求，即发送一个request，请求可以包括额外的headers等信息，等待服务器响应
获取响应内容
如果服务器能正常响应，会得到一个response，response的内容就是索要获取的页面内容，类型可能有html，json字符串，二进制数据（比如图片或者视频）等类型
解析内容
得到的内容可能是html，可以使用正则表达式，网页解析库进行解析。可能是json，直接转换为json对象解析，可能是二进制数据，直接保存或者进一步处理
保存数据
保存形式多样，可以保存为文本，也可以保存到数据库，或者保存为特定格式的文件

Request和Response介绍

image.png

浏览器发送消息给所在网址的服务器消息，这个过程就是http Request
服务器收到收到浏览器发送的消息，会根据浏览器发送消息的内容，作适当处理，然后把消息回传给浏览器，这个过程叫做http Response
浏览器收到服务器的Response信息以后，会对消息进行相应的处理，然后展示

Request 相关知识

请求方式
主要有get、post两种类型，另外还有head、put、delete、options等
请求URL
URL全程统一资源定位符，如一个网页文档、一张图片、一个视频等都可以用URL唯一来确定
请求头
包含请求时的头部信息，比如User-Agent、Host、Cookies等信息
请求体
请求时额外携带的数据，不如表单提交时的表单数据

Response 相关知识

响应状态
有多重响应状态，比如200表示成功、301跳转、404找不到网页、502服务器错误
响应头
如内容类型、内容长度、服务器信息、设置Cookie等
响应体
最主要的部分。包含了请求资源得内容。比如网页HTML、图片、二进制数据等

爬虫能抓什么数据

网页文本
如html文档，json格式文本
图片
获取的是二进制文件，保存为图片格式
视频
同为二进制文件，保存为视频格式即可
4 其他
只要是能获取到的，都不获取

常见的解析方式

直接处理
json解析
正则表达式处理
BeautifulSoup
PyQuery
Xpath

如何解决JavaScript渲染的问题

分析Ajax请求
Selenium/WebDriver
Splash
PyV8、Ghost.py

如何保存数据
1.文本
出文本、json、xml

关系型数据库
比如MySQL、Oracle、SQL Server等具有结构化表结构的存储
非关系型数据库
比如MongoDB、Redis等Key-Value形式存储
二进制文件
比如图片、视频、音频等直接保存为特定格式即可

相关文章

爬虫基本原理介绍
什么是爬虫请求网站并提取数据的自动化程序爬虫基本请求发起请求通过http库向目标站点发起请求，即发送一个req...
Python3 爬虫介绍
爬虫的基本原理所谓爬虫就是一个自动化数据采集工具，你只要告诉它要采集哪些数据。其背后的基本原理就是爬虫程序向目标...
学渣讲爬虫之Python爬虫从入门到出门（第一讲）
目录学渣讲爬虫之Python爬虫从入门到出门第一讲目录爬虫的常用形式爬虫的基本原理前期准备简单爬虫爬...
一周内从0到1掌握Node爬虫技巧（二）
上篇文章介绍了爬虫的基本概念和基本原理，这篇开始我们一起来看看具体如何从网页中爬取自己想要的数据。在下面爬虫的栗...
2018-12-24 网页爬虫第一天
Python爬虫从入门到出门第一天 1.1 目录 1.1 目录 1.2 爬虫的常用形式 1.3 爬虫的基本原理 ...
Python 爬虫_动态网页抓取
挖坑____ 理解静态网页理解动态网页爬虫的基本原理爬虫与网页内容之间的关系使用爬虫抓取动态网页内容
【Python】Python3网络爬虫实战-15、爬虫基础：HT
在写爬虫之前，还是需要了解一些爬虫的基础知识，如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies ...
python爬虫day-4（爬虫的基本原理）
个人学习笔记，方便自己查阅，仅供参考，欢迎交流爬虫的基本原理 A.爬虫概述爬虫就是获取网页并提取和保存信息的自...
爬虫基本原理
爬虫基本原理一、爬虫是什么? 百度百科和维基百科对网络爬虫的定义：简单来说爬虫就是抓取目标网站内容的工具，一般是...
1. 爬虫基础
爬虫基础 HTTP基本原理 URI和URL URI(Uniform Resource Identifer)：统一资...

网友评论

本文标题：爬虫基本原理介绍

本文链接：https://www.haomeiwen.com/subject/qrekectx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|爬虫基本原理介绍|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！