爬取网页的通用代码框架

爬取网页的通用代码框架

作者: 闲云野鹤_23dd | 来源:发表于2021-05-23 15:28 被阅读0次

网络爬虫与信息提取（二）
学习笔记 2018-10-22
python网络爬虫—爬取网页的通用代码框架及HTTP协议【2】
爬取网页的通用代码框架
爬取网页的通用代码框架
requests爬取网页的通用框架
(二)爬取豆瓣网的书名（BeautifulSoup库）|Pyth
人生苦短之爬虫爬取网页的通用代码框架
Python实战学习笔记爬去真实网页信息
前程无忧职位信息爬取

1、什么是网页的通用代码框架？

就是一组代码；能够准确的可靠地爬取网页上的内容。

2、网络的异常处理：

image.png

注意：6、7的区别

image.png

r.raise_for_status()使用方法：

image.png

image.png

代码如下：
import requests
def getHTMLText(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()#如果状态不是200，引发HTTPError异常
r.encoding=r.apparent_encoding#根据响应内容指定编码格式utf-8
return r.text
except:
return '产生异常'

if name == 'main':
url='https://www.baidu.com'
print(getHTMLText(url))

Http协议和Requests库的方法：

http协议内容请参考：HTTP入门详解 - 简书 (jianshu.com)
是不是很熟悉，和request库的七个主要七个方法很像。

image.png

image.png
head（）方法更节省带宽：

image.png

image.png

image.png
put（）与post（）类似。

相关文章

网络爬虫与信息提取（二）
爬取网页的通用代码框架 Requests库的异常爬取网页的通用代码框架协议 HTTP http://host[...
学习笔记 2018-10-22
第一单元小结通用代码框架try - except 网络爬虫引发的问题爬取网页，玩转网页 requests爬取网站...
python网络爬虫—爬取网页的通用代码框架及HTTP协议【2】
-Modest_Proud- 一、爬取网页的通用代码框架首先，我们使用Requests库进行网页访问的时候，经...
爬取网页的通用代码框架
爬取网页的通用代码框架
1、什么是网页的通用代码框架？就是一组代码；能够准确的可靠地爬取网页上的内容。 2、网络的异常处理：注意：6、...
requests爬取网页的通用框架
概述代码编写完成时间：2017.12.28写文章时间：2017.12.29 看完中国大学MOOC上的爬虫教程后，...
(二)爬取豆瓣网的书名（BeautifulSoup库）|Pyth
1.爬取网页的步骤2.爬取网页的代码1结果显示3.爬取网页的代码2结果显示4.代码分析最近更新：2018-01-1...
人生苦短之爬虫爬取网页的通用代码框架
我们首先打开IDLE选择File->new window命令（或者可以直接按键Ctrl+N键，在很多地方这个按键是...
Python实战学习笔记爬去真实网页信息
爬取URL结果爬取代码爬取心得通过这次爬去学会从网页找不同页面地址之间的规律爬去网页，单次爬取的网页可以作为循...
前程无忧职位信息爬取
分析网页通过浏览器查看网页源代码，可以找到相应的职位信息，可知目标网页为静态网页，因此可以直接爬取。爬取思路 ...

网友评论

本文标题：爬取网页的通用代码框架

本文链接：https://www.haomeiwen.com/subject/gsqncltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|爬取网页的通用代码框架|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！