入门七天，如何用十几行python代码爬取百度首页

入门七天，如何用十几行python代码爬取百度首页

作者: 1a076099f916 | 来源:发表于2019-02-15 14:25 被阅读36次

入门七天，如何用十几行python代码爬取百度首页
入门七天，如何用十几行python代码爬取百度首页
python爬取百度图片代码
通过关键字爬取百度图片
猫眼电影Top100数据爬取，使用requests和xpath
【Python】python爬取百度云网盘资源-源码
Python爬虫学习1
Python爬取百度图片代码！
Python爬取百度首页
使用python3爬取今日头条街拍美女

入门七天，如何用十几行python代码爬取百度首页

分享一下我写的第一个爬虫，这个爬虫很简单，只要稍微了解urllib库就可以写出来。urllib库在 python2和python3上有很大的区别，python2有urllib和urllib2两个库，Python3中将python2的urllib和urllib2两个库合并成了一个urllib库，而且不需要自己去安装，只要下载python3就已经自带了这库。

urllib简介：

urllib提供了一系列用于操作URL的功能的库，其主要包括以下模块。

urllib.request 请求模块

urllib.error 异常处理模块

urllib.parse url解析模块

urllib.robotparser robots.txt解析模块

urllib.request 请求模块

入门七天，如何用十几行python代码爬取百度首页

入门七天，如何用十几行python代码爬取百度首页

直接用urllib.request模块的urlopen( )获取页面，date的数据格式为bytes类型，需要decode( )解码，转换成str类型。

urillib的参数及解释：

入门七天，如何用十几行python代码爬取百度首页

url: 需要打开的网址

data：Post提交的数据

timeout：设置网站的访问超时时间

context 参数：它必须是 ssl.SSLContext 类型，用来指定 SSL 设置。

cafile 和 capath 两个参数：是指定CA证书和它的路径，这个在请求 HTTPS 链接时会有用。

cadefault 参数：现在已经弃用了，默认为 False

urlopen返回对象提供方法：

入门七天，如何用十几行python代码爬取百度首页

入门七天，如何用十几行python代码爬取百度首页

read() , readline() ,readlines() , fileno() , close() ：对HTTPResponse类型数据进行操作。

info()：返回HTTPMessage对象，表示远程服务器返回的头信息。

getcode()：返回Http状态码。http请求是200请求成功; 404网址未找到。

geturl()：返回请求的url。

添加头部文件

有些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置，而我们又想进行爬取。

解决方法：设置一些Headers信息（User-Agent），模拟成浏览器去访问这些网站。

入门七天，如何用十几行python代码爬取百度首页

写入到文本的结果：

入门七天，如何用十几行python代码爬取百度首页

通过代码我们可以看出urlopen不再是传递url了,而是一个 request。这样一来我们不再把请求当成一个独立对象，而且能更加灵活方便的配置访问参数。把page的数据格式是bytes类型，用decode转换成str类型，并写入到 'baidu.txt文件'。

urllib.error 异常处理模块

用try-except来捕捉异常,主要的错误方式就两种 URLError（错误信息）和HTTPError(错误编码)。

入门七天，如何用十几行python代码爬取百度首页

urllib.parse url解析模块

urllib.parse.urlparse

入门七天，如何用十几行python代码爬取百度首页

入门七天，如何用十几行python代码爬取百度首页

这里可以看出是把你传入的url地址进行拆分，同时我们是可以指定协议类型：

result = urlparse("www.baidu.com/index.html;user?id=5#comment",scheme="https")

这样拆分的时候协议类型部分就会是你指定的部分，当然如果你的url里面已经带了协议，你再通过scheme指定的协议就不会生效。

urllib.parse.urlunparse

入门七天，如何用十几行python代码爬取百度首页

入门七天，如何用十几行python代码爬取百度首页

urlunparse功能和urlparse的功能相反，它是用于拼接。

urllib.parse.urljoin；

入门七天，如何用十几行python代码爬取百度首页

入门七天，如何用十几行python代码爬取百度首页

通过结果可以看出urljion功能主要是拼接用的。

urllib.parse.urlencode;

入门七天，如何用十几行python代码爬取百度首页

入门七天，如何用十几行python代码爬取百度首页

parse.urlencode方法可以将字典转换为url参数。

加群：700341555可以领取python视频，PDF电子文档，爬虫等资料

入门七天，如何用十几行python代码爬取百度首页

相关文章

入门七天，如何用十几行python代码爬取百度首页
分享一下我写的第一个爬虫，这个爬虫很简单，只要稍微了解urllib库就可以写出来。urllib库在 python2...
入门七天，如何用十几行python代码爬取百度首页
分享一下我写的第一个爬虫，这个爬虫很简单，只要稍微了解urllib库就可以写出来。urllib库在 python2...
python爬取百度图片代码
python爬取百度图片代码
通过关键字爬取百度图片
在 Python 3 多线程下载百度图片搜索结果提供了通过关键字爬取百度图片的代码，而 Python爬取百度图片...
猫眼电影Top100数据爬取，使用requests和xpath
记录一下学习python爬虫的入门例子 1、爬取的网页源代码如下： 2、代码部分如下，只爬取了电影名字，如果要爬取...
【Python】python爬取百度云网盘资源-源码
今天测试用了一下python爬取百度云网盘资源. 标签： <无> 代码片段 [代码][Python]代码
Python爬虫学习1
Python爬虫学习1 1、简单制作爬虫小程序爬取百度首页源代码: urllib是一个非常重要的一个模块，可以...
Python爬取百度图片代码！
python爬取百度图片代码 import json Python资源共享群：484031800import i...
Python爬取百度首页
代码基于python3,入门练习小例子，下面介绍两种模块的实现 urllib.request模块 requests...
使用python3爬取今日头条街拍美女
使用python爬取今日头条街拍美女照片借助百度人脸识别功能评分爬取代码请参考python3网络爬虫实战，（代码简...

网友评论

Python学习资料整理

本文标题：入门七天，如何用十几行python代码爬取百度首页

本文链接：https://www.haomeiwen.com/subject/ptnpeqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

Python学习资料整理

热点阅读

Python学习资料整理

关于我们|服务条款|联系我们|入门七天，如何用十几行python代码爬取百度首页|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！