02、爬虫基本原理

02、爬虫基本原理

作者: 即将拥有八块腹肌的程序猿 | 来源:发表于2019-07-24 21:48 被阅读0次

(一)爬虫基本原理介绍|Python3网络爬虫开发实战
Python3 爬虫介绍
02、爬虫基本原理
学渣讲爬虫之Python爬虫从入门到出门（第一讲）
2018-12-24 网页爬虫第一天
Python 爬虫_动态网页抓取
【Python】Python3网络爬虫实战-15、爬虫基础：HT
python爬虫day-4（爬虫的基本原理）
爬虫基本原理
1. 爬虫基础

1、什么是爬虫？

请求网站并提取数据的自动化程序

2、爬虫基本流程

发起请求：通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。

获取响应内容：如果服务器能正常响应，会得到一个Response,Response的内容便是所要获取的页面内容，类型可能有HTML、Json字符串、二进制数据（如图片视频）等类型。

解析内容：得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析。可能是Json，可以直接转为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理。

保存数据：保存形式多样，可以存为文本，也可以保存至数据库，或者保存特定格式的文件。

请求和响应

请求

3、请求的内容主要有：

请求方式：get，post、请求URL、请求头、请求体

响应

4、响应的内容主要有：

响应状态、响应头、响应体

5、实际操作

5.1、get请求百度

>>> import requests

>>> response = requests.get('http://www.baidu.com')

>>> print(response.text)

发出get请求

5.2、打印响应的其他内容

>>> print(response.headers)

打印响应头

>>> print(response.status_code)

打印响应代码

5.3、添加请求头

添加请求头信息

6、能抓怎样的数据？

能抓取怎样的信息

可以抓取：网页文本、图片、视频、其他

7、怎样来解析？

解析方式

爬取下来的数据解析方式主要有：直接处理、Json解析、正则表达式、BeautifulSoup、PyQuery、XPath

8、为什么我抓到的和浏览器看到的不一样？

部分页面存在JavaScript渲染

9、怎样解决JavaScript渲染的问题？

解决JavaScript渲染

第一种是分析Ajax请求，第二种是通过Selenium或WebDriver模拟浏览器渲染

10、可以怎样保存数据？

保存数据的方法

保存数据的方法：文本、关系型数据库、非关系型数据库、二进制文件

相关文章

(一)爬虫基本原理介绍|Python3网络爬虫开发实战
最近更新：2018-02-01 1.0什么是爬虫? 是请求网站并提取数据的自动化程序 2.0爬虫基本原理 3.0什...
Python3 爬虫介绍
爬虫的基本原理所谓爬虫就是一个自动化数据采集工具，你只要告诉它要采集哪些数据。其背后的基本原理就是爬虫程序向目标...
02、爬虫基本原理
1、什么是爬虫？请求网站并提取数据的自动化程序 2、爬虫基本流程发起请求：通过HTTP库向目标站点发起请求...
学渣讲爬虫之Python爬虫从入门到出门（第一讲）
目录学渣讲爬虫之Python爬虫从入门到出门第一讲目录爬虫的常用形式爬虫的基本原理前期准备简单爬虫爬...
2018-12-24 网页爬虫第一天
Python爬虫从入门到出门第一天 1.1 目录 1.1 目录 1.2 爬虫的常用形式 1.3 爬虫的基本原理 ...
Python 爬虫_动态网页抓取
挖坑____ 理解静态网页理解动态网页爬虫的基本原理爬虫与网页内容之间的关系使用爬虫抓取动态网页内容
【Python】Python3网络爬虫实战-15、爬虫基础：HT
在写爬虫之前，还是需要了解一些爬虫的基础知识，如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies ...
python爬虫day-4（爬虫的基本原理）
个人学习笔记，方便自己查阅，仅供参考，欢迎交流爬虫的基本原理 A.爬虫概述爬虫就是获取网页并提取和保存信息的自...
爬虫基本原理
爬虫基本原理一、爬虫是什么? 百度百科和维基百科对网络爬虫的定义：简单来说爬虫就是抓取目标网站内容的工具，一般是...
1. 爬虫基础
爬虫基础 HTTP基本原理 URI和URL URI(Uniform Resource Identifer)：统一资...

网友评论

本文标题：02、爬虫基本原理

本文链接：https://www.haomeiwen.com/subject/jzmfrctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|02、爬虫基本原理|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！