Python 爬虫使用随机 User-Agent

作者: JeetChan | 来源:发表于2020-03-05 18:31 被阅读0次

Python 爬虫使用随机 User-Agent
10-Scrapy反爬策略&模拟登录
Scrapy的下载中间件
爬虫
scrapy突破反爬的几种方式（二）
python基础知识和经验总结-1
scrapy使用随机User-Agent
Scrapy使用随机User-Agent爬取网站
Scrapy的中间件Downloader Middleware实
python爬虫学习（三）

原文首发于CSDN，略有增删

Python 爬虫使用随机 User-Agent

在编写爬虫时，大多数情况下，需要设置请求头。而在请求头中，随机更换User-Agent可以避免触发相应的反爬机制。使用第三方库fake-useragent便可轻松生成随机User-Agent。

以下简单介绍fake-useragent的安装使用，以及可能出现的问题和解决方法。

安装

fake-useragent的 GitHub 仓库地址是：https://github.com/hellysmile/fake-useragent。可使用pip进行安装。

pip install fake-useragent

使用

当我们需要使用随机User-Agent时，只需通过ua.random即可获取。代码如下：

from fake_useragent import UserAgent

ua = UserAgent()

# ......
request.add_header("User-Agent",ua.random)
# ......

在这里这是使用了fake-useragent库的随机功能，更详细用法请参阅官方文档。

可能出现的问题和解决方法

我在使用fake-useragent的过程中出现了FakeUserAgentError错误。在搜索到的很多解决方法都无效，包括：

禁用服务器缓存：ua = UserAgent(use_cache_server=False)
不缓存数据：ua = UserAgent(cache=False)
忽略 SSL 验证：ua = UserAgent(verify_ssl=False)
更新fake-useragent：pip install -U fake-useragent

最后是通过文章《FakeUserAgentError('Maximum amount of retries reached') 彻底解决办法》加载fake_useragent本地文件才能解决。但需要从herokuapp下载（https://fake-useragent.herokuapp.com/browsers/0.1.11）fake_useragent的JSON文件。不过我家里的网络是打不开herokuapp的，切换到另外的网络才能打开。为了方便无法访问herokuapp网站的朋友，我也上传了一份到CSDN资源中，有需要的可以去下载。

import fake_useragent

# I am STRONGLY!!! recommend to use version suffix
location = '/home/user/fake_useragent%s.json' % fake_useragent.VERSION

ua = fake_useragent.UserAgent(path=location)
ua.random

FakeUserAgentError.png

网友评论

本文标题：Python 爬虫使用随机 User-Agent

本文链接：https://www.haomeiwen.com/subject/nahcrhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python 爬虫使用随机 User-Agent

Python 爬虫使用随机 User-Agent

安装

使用

可能出现的问题和解决方法

相关文章