（一）刚入爬虫坑(2)——urllib.request库的使用(

（一）刚入爬虫坑(2)——urllib.request库的使用(

作者: 爱折腾的胖子 | 来源:发表于2018-09-14 03:53 被阅读0次

（一）刚入爬虫坑(2)——urllib.request库的使用(
（一）刚入爬虫坑(2)——urllib.request库的使用(
（一）刚入爬虫坑(1)——爬虫简介
Python-Http请求
简单的爬虫
Python笔记——下载图片的两种方法
PY_Spider_入门demo
使用 Python 爬取网页数据
urllib2模块的基本使用
（一）刚入爬虫坑(3)——数据提取之re的使用

在（一）刚入爬虫坑(1)——爬虫简介中提到过urllib2这个库，这个库是python2.7自带的模块，不需要下载。

本篇使用python3，urllib2在python3中被修改为urllib.request。

urlopen()：

urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT, *, cafile=None, capath=None, cadefault=False, context=None)

url : url地址

data：指明发往服务器请求中的额外的信息

timeout：连接超时

cafile、capath、cadefault：跟证书有关，一般不用

context：上下文

下面写一个小例子：

此时可以看到控制台打印出的html代码。

但是urlopen有一个弊端，就是不能模拟浏览器进行请求，想要模拟浏览器进行请求，就得需要修改header里面的User-Agent，可以从源码中看到，此时的User-Agent是Python-urllib，明显就是爬虫，所以这个在实际的爬虫项目中并不能使用。

如果想模拟浏览器发送请求，可以自定义一个request，填写一个浏览器的User-Agent，直接上代码：

此时可以看到控制台打印出的html代码。

刚才的代码中只是输出了html，response里面还有很多的信息，可以一个一个打印看一下。

最常用的三个方法。

User-Agent是反爬虫的第一步，但不能只是一个User-Agent，可以写一个列表，然后每一次请求都换一个User-Agent才能更好的欺骗服务器。

代码如下：

切记每一次请求都要带User-Agent

urlencode()：

在使用百度搜索引擎的时候，搜索是使用了get方式进行请求，传递了wd=****的参数。

我们可以把浏览器地址复制一下，粘贴到文档中，可以发现url变样了，汉字变成了另一种编码。

https://www.baidu.com/s?wd=%E7%99%BE%E5%BA%A6%E8%B4%B4%E5%90%A7

这就是URL的编码，在做爬虫的时候也需要对一些文字做一些编码转换，直接上代码：

运行后可以得到一个url地址，然后把这个url地址放入到真实的浏览器中，跳转的就是百度搜索“百度贴吧”的网站。

urlencode方法把键值对形式{ "wd" : "百度贴吧" }转换成了字符串形式"wd=%E7%99%BE%E5%BA%A6%E8%B4%B4%E5%90%A7"，同时也对汉字进行了编码操作。

上面只是测试了几个方法，接下来使用上面写的方法做一个小案例，写一个百度贴吧的爬虫。

此时会在当前目录下生成十个html文件，打开看就是获取的内容。

上面代码就是都是GET请求的方式，也就是把参数拼接在url中，接下来我们研究一下POST请求：

urlopen()中有一个参数是data，它就是POST请求中传递参数的方式，可以试试写一个关于有道翻译的POST请求，话不多说直接上代码：

上面代码运行获取的Json数据

这里面的headers中的数据和 post_data数据可以直接从抓包工具或者浏览器中复制。

headers里面有一个cookies，在某一些网站是需要登陆然后才能浏览到数据，此时就可以使用cookies绕过登录界面，直接进行页面的抓取。这个以后会经常遇到，接下来会介绍到。

相关文章

（一）刚入爬虫坑(2)——urllib.request库的使用(
在（一）刚入爬虫坑(2)——urllib.request库的使用(1)中介绍了user-agent可以模拟成浏览器...
（一）刚入爬虫坑(2)——urllib.request库的使用(
在（一）刚入爬虫坑(1)——爬虫简介中提到过urllib2这个库，这个库是python2.7自带的模块，不需要下载...
（一）刚入爬虫坑(1)——爬虫简介
网上资源很多，很多新手在学习的时候，不知道自己真的需要什么，找资料很费时间，我作为新手大军的一员，希望能写...
Python-Http请求
使用httpget.py 参考文章：python3网络爬虫一《使用urllib.request发送请求》https...
简单的爬虫
这是个简单的爬虫程序，因为刚学Python所以记录一下 import urllib.request impor...
Python笔记——下载图片的两种方法
第一种：使用urllib.request库中的urlretrieve方法 1.示例代码： 2.方法详解 urlli...
PY_Spider_入门demo
利用调休时间写的一个PY-爬虫的入门demo,以后慢慢入坑：相关库：bs4,request库，os文件夹操作。 ...
使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 ...
urllib2模块的基本使用
刚接触Python爬虫，首先使用的urllib2这个库，记录下使用的要点。由于是初学，有不对的地方等发现了再来更正...
（一）刚入爬虫坑(3)——数据提取之re的使用
使用urllib库可以模拟浏览器发送请求获得服务器返回的数据，下一步就是把有用的数据提取出来。数据分为两种形式结构...

网友评论

本文标题：（一）刚入爬虫坑(2)——urllib.request库的使用(

本文链接：https://www.haomeiwen.com/subject/fnpggftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|（一）刚入爬虫坑(2)——urllib.request库的使用(|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！