构建属于自己的代理IP池

作者: 言之命至_98c8 | 来源:发表于2019-07-09 19:40 被阅读0次

构建属于自己的代理IP池
爬虫（2）--- 构建简单代理IP池
构建自己的IP代理池
构建IP代理池爬取妹子图片
Python构建自己的代理IP池
2017-4-30爬取代理IP并验证
scrapy突破反爬虫措施
如何给自己搭建一个爬虫代理IP池？
Python代理IP池（IP proxy pool）构建
关于scrapy框架解决ip池的三种方法

对于学习爬虫来说，ip被禁几乎是常见的事。因此在爬取业务中，使用代理ip几乎是常态。但是对市面上的代理ip的服务，对于个人爬虫学习者来说，价格高昂。即使淘宝上的代理ip服务，质量高的价格昂贵，价格适中偏低质量却参差不齐。在茫茫互联网中，也有许多人开始构建属于自己的代理IP池，通过爬取市面上的免费ip并定时验证其有效性来构建出自己的代理池。其中haipproxy是比较开源而且搞笑的代理池。

本文也讲述如何构建出自己的代理池，通过爬取市面上公开的免费的代理IP进行验证，成本较低；技术上较为繁琐，但是你也可以从中学习到许多业务开放能力。本项目旨在学习，继而顺便构建出自己的代理池。

前期准备/使用的框架模块

阿里云服务器，建议使用linux系统

python3.6 编译环境

celery 任务分发模块，你可以在从中学习到异步执行请求

supervisor 进程监控模块，你可以学习到进程监控等业务

sanic 服务端模块、你也可以使用flask，套接字，其他方式等进行获取

redis 存放的数据库

基本流程

创建proxy文件夹，并该文件夹下依次创建以下.py文件：

__init__.py # 声明该文件是个模块

config.py # celery的配置参数

crawler.py # 实例crawler.py

crawl_proxy.py # 实际爬取逻辑

valid_proxy.py # celery的处理任务

db.py # redis数据库的操作类

rules.py # 爬取目标网站的信息 ,以及队列名

api.py 获取随机代理IP api

项目详细地址proxy

网友评论

本文标题：构建属于自己的代理IP池

本文链接：https://www.haomeiwen.com/subject/ededbxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

构建属于自己的代理IP池

前期准备/使用的框架模块

基本流程

相关文章