【高级特性】54、网络爬虫

【高级特性】54、网络爬虫

作者: 看远方的星 | 来源:发表于2021-06-06 20:40 被阅读0次

【高级特性】54、网络爬虫
scrapy 快速入门
Java(1.8)高级特性-网络
1-基本概念
2018-01-11 Python网络爬虫与信息提取网络爬虫
[Python网络爬虫]第1章网络爬虫入门
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
Python网络爬虫实战之九：Selenium进阶操作与爬取京东

目录
一、搜索引擎蜘蛛
二、requests库
三、Beautiful Soup
四、爬虫的基本流程

一、搜索引擎蜘蛛

爬虫是按照一定规则，自动地提取并保存网页中信息的程序
蜘蛛沿着网络抓取猎物
通过一个节点之后，顺着该节点的连线继续爬行到下一个节点，最终爬完整个网络的全部节点
通过向网站发起请求获取资源，提取其中有用的信息

二、requests库

Python实现的一个简单易用的HTTP库
支持HTTP持久连接和连接池、SSL证书验证、cookies处理、流式上传等
向服务器发起请求并获取响应，完成访问网页的步骤
简洁、容易理解，是最友好的网络爬虫库
http请求类型
requests.request（）：构造一个请求
requests.get（）：获取HTML网页
requests.head（）：获取HTML网页头信息
requests.post（）：提交POST请求
requests.put（）：提交PUT请求
requests.patch（）：提交局部修改请求
requests.delete（）：提交删除请求
requests.options（）：获取http请求
返回的是一个response对象
response对象
包含服务器返回的所有信息，例如状态码、编码形式、文本内容等；也包含请求的request信息
.status_code：HTTP请求的返回状态
.text：HTTP响应内容的字符串形式
.content：HTTP响应内容的二进制形式
.encoding：（从HTTP header中）分析响应内容的编码方式
.apparent_encoding：（从内容中）分析响应内容的编码方式

image.png

image.png

定制请求头
requests的请求接口有一个名为headers的参数，向它传递一个字典来完成请求头定制
设置代理
一些网站设置了同一IP访问次数的限制，可以在发送请求时指定proxies参数来替换代理，解决这一问题

image.png

三、Beautiful Soup

页面解析器
使用requests库下载了网页并转换成字符串后，需要一个解析器来处理HTML和XML，解析页面格式，提取有用的信息
解析器类型

image.png
搜索方法

find_all（name，attrs，recursive，string，**kwargs）
返回文档中符合条件的所有tag，是一个列表

find（name，attrs，recursive，string，**kwargs）
相当于find_al1（）中limit=1，返回一个结果

name：对标签名称的检索字符串

attrs：对标签属性值的检索字符串

recursive：是否对子节点全部检索，默认为True
string：<>...</>中检索字符串

**kwargs：关键词参数列表

四、爬虫的基本流程

分析网页结构

image.png
爬取页面
通过requests库向目标站点发送请求，若对方服务器正常响应，能够收到一个response对象，它包含了服务器返回的所有信息

image.png
解析页面
HTML代码-网页解析器
Json数据-json模块，转换成Json对象
二进制数据一以wb形式写入文件，再做进一步处理此处使用bs4进行解析

image.png

相关文章

【高级特性】54、网络爬虫
目录一、搜索引擎蜘蛛二、requests库三、Beautiful Soup四、爬虫的基本流程一、搜索引擎蜘蛛爬...
scrapy 快速入门
安装Scrapy Scrapy是一个高级的Python爬虫框架，它不仅包含了爬虫的特性，还可以方便的将爬虫数据保存...
Java(1.8)高级特性-网络
网络编程涉及到了最基础的Socket编程，以及基于次的网络服务。下面将介绍在Java中如何实现Socket以及一些...
1-基本概念
简介为什么选择Python做爬虫需要技能爬虫与反爬虫网络爬虫类型通用网络爬虫聚焦网络爬虫增量式网络爬...
2018-01-11 Python网络爬虫与信息提取网络爬虫
1、网络爬虫 1.1 网络爬虫的尺寸网络爬虫的尺寸 1.2 网络爬虫的“骚扰”网络爬虫速度快（但是服务器是按照人数...
[Python网络爬虫]第1章网络爬虫入门
要点介绍网络爬虫的基础部分学习网络爬虫的原因网络爬虫带来的价值网络爬虫是否合法网络爬虫的基本议题和框架 1.1 ...
Python网络爬虫实战之十四：Scrapy结合scrapy-s
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...

网友评论

本文标题：【高级特性】54、网络爬虫

本文链接：https://www.haomeiwen.com/subject/qbnheltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|【高级特性】54、网络爬虫|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！