《抓取免费的代理IP供自己使用》【第三章】抓取66代理

《抓取免费的代理IP供自己使用》【第三章】抓取66代理

作者: 吉祥鸟hu | 来源:发表于2021-04-06 21:14 被阅读0次

《抓取免费的代理IP供自己使用》【第三章】抓取66代理
python抓取代理IP并多线程验证
《抓取免费的代理IP供自己使用》【第二章】抓取快代理
Python 学习记录1
python爬虫批量抓取ip代理
Scrapy学习笔记(7)-定制动态可配置爬虫
爬虫代理池搭建
Fiddler 抓包
代理池
通过代理ip进行分布式爬虫的几种方案

首发于：https://mp.weixin.qq.com/s/KwPInaFKjgo6fcOKNEOItw

抓取66代理

准备

网址：http://www.66ip.cn/
系统：windows
浏览器：Google
语言：python
版本：3.7
数据库：MongoDB

分析网址

先打开网址看下：http://www.66ip.cn/

file

点击全国代理ip，应该就是所有的ip了，那我们就抓这里

这里详细的分析过程就省略了，也是很简单，和第二章基本是一样的，可以参考之前的文章

直接贴代码了

代码实现

import requests
from lxml import etree
import pymongo
import time
class get_ip:
    def __init__(self):
        _mongo = pymongo.MongoClient(host="127.0.0.1",port=27017)
        db = _mongo.IPS
        self.ip_table = db["ip_table"]

    def get_html(self,page):

        headers = {
            'Connection': 'keep-alive',
            'Upgrade-Insecure-Requests': '1',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
            'Referer': 'http://www.66ip.cn/index.html',
            'Accept-Language': 'zh-CN,zh-TW;q=0.9,zh;q=0.8,en;q=0.7',
        }

        response = requests.get(f'http://www.66ip.cn/{page}.html', headers=headers, verify=False)
        html = etree.HTML(response.text)
        trs = html.xpath('//div[@id="main"]//table//tr')
        # print(trs)
        for tr in trs:
            ip = tr.xpath('td[1]/text()')[0]
            port = tr.xpath('td[2]/text()')[0]
            if "." not in ip or "ip" in ip:
                print(f"不是ip {ip}:{port}")
                continue
            print(f"{ip}:{port}",end=" ")
            _find = self.ip_table.find_one({"ip":ip,"post":port})
            # 去重
            if not _find:
                print("ip不存在")
                self.ip_table.insert_one({"ip":ip,"post":port})
            else:
                print("ip已存在")
        
g = get_ip()
for i in range(1,2266):
    g.get_html(i)
    time.sleep(5)

第二种方式

不知道大家有没有在66代理网页上注意到这个

file

这是什么呢，这个应该是提供了一个api接口，我们来看下

file

我们先点击免费HTTP提取，再点击提取

file

我们可以看到，这里就直接提出来了一些代理，既然网站直接给了api，其实我们可以直接提取他们的api，来获取代理

我们来尝试一下

file

我们把这个拿到

http://www.66ip.cn/mo.php?sxb=&tqsl=10&port=&export=&ktip=&sxa=&submit=%CC%E1++%C8%A1&textarea=http%3A%2F%2Fwww.66ip.cn%2F%3Fsxb%3D%26tqsl%3D10%26ports%255B%255D2%3D%26ktip%3D%26sxa%3D%26radio%3Dradio%26submit%3D%25CC%25E1%2B%2B%25C8%25A1

直接请求试试，看是否能得到代理数据

file

确实是可以得到代理数据的，所以我们也可以通过api抓取我们想要的数据

具体的步骤就不贴了

需要的话可以自己尝试下

对于是否使用api

在正常的爬虫数据抓取的时候，个人是比较推荐使用网站给的api

因为api一般是没有啥反爬的，网址是可能有的，而且api的格式一般很固定，而且比较简单，数据处理的时候比较方便

但是也是要根据具体情况来定，就像这个网站，虽然有api接口，但是api返回的代理应该是随机的，这就造成了我们抓的数据后面可能不全

不过你也可以请求很多次，来减少数据缺失的可能性，需要用啥方式，自行决定把！

关注我获取更多内容

相关文章

《抓取免费的代理IP供自己使用》【第三章】抓取66代理
首发于：https://mp.weixin.qq.com/s/KwPInaFKjgo6fcOKNEOItw[htt...
python抓取代理IP并多线程验证
一、抓取代理IP 提供免费代理IP的网站还挺多的，我在‘西刺代理’上一阵猛抓后自己的IP就被其屏蔽了。只好换‘IP...
《抓取免费的代理IP供自己使用》【第二章】抓取快代理
首发于：https://mp.weixin.qq.com/s/O00A2FnYgcgThoEwdZTPaw[htt...
Python 学习记录1
从豆瓣网下载整个相册的图片从西祠代理网站爬取免费高匿ip 西祠代理验证抓取的IP是否可用建立代理IP池抓...
python爬虫批量抓取ip代理
使用爬虫抓取数据时，经常要用到多个ip代理，防止单个ip访问太过频繁被封禁。 ip代理可以从这个网站获取：http...
Scrapy学习笔记(7)-定制动态可配置爬虫
前言最近一直想维护一个代理IP池，在网上找了三十多个免费提供代理IP的网站，想把这些代理都抓取下来存到本地数据库...
爬虫代理池搭建
爬虫代理的重要性这里就不在赘述了,先贴一张代理池流程图: 1.代理IP抓取网上免费代理都不靠谱(你懂的),推荐一...
Fiddler 抓包
Fiddler配置抓取https 如果不需要抓取https的可以忽略连接代理我的电脑ip是192.168.3...
代理池
代理池的作用解决短时间内频繁爬取统一网站导致IP封锁的情况。具体工作机制：从各大代理网站抓取免费IP —— 去重...
通过代理ip进行分布式爬虫的几种方案
我们都知道，为了更高效地进行数据抓取，我们需要使用爬虫代理ip，假如不用代理ip，爬虫业务必定无路可行，因此大部分...

网友评论

Python

本文标题：《抓取免费的代理IP供自己使用》【第三章】抓取66代理

本文链接：https://www.haomeiwen.com/subject/pipekltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

Python

关于我们|服务条款|联系我们|《抓取免费的代理IP供自己使用》【第三章】抓取66代理|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！