美文网首页Python
《抓取免费的代理IP供自己使用》【第三章】抓取66代理

《抓取免费的代理IP供自己使用》【第三章】抓取66代理

作者: 吉祥鸟hu | 来源:发表于2021-04-06 21:14 被阅读0次

首发于:https://mp.weixin.qq.com/s/KwPInaFKjgo6fcOKNEOItw

抓取66代理

准备

  • 网址:http://www.66ip.cn/
  • 系统:windows
  • 浏览器:Google
  • 语言:python
  • 版本:3.7
  • 数据库:MongoDB

分析网址

先打开网址看下:http://www.66ip.cn/

file

点击全国代理ip,应该就是所有的ip了,那我们就抓这里

这里详细的分析过程就省略了,也是很简单,和第二章基本是一样的,可以参考之前的文章

直接贴代码了

代码实现

import requests
from lxml import etree
import pymongo
import time
class get_ip:
    def __init__(self):
        _mongo = pymongo.MongoClient(host="127.0.0.1",port=27017)
        db = _mongo.IPS
        self.ip_table = db["ip_table"]

    def get_html(self,page):

        headers = {
            'Connection': 'keep-alive',
            'Upgrade-Insecure-Requests': '1',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
            'Referer': 'http://www.66ip.cn/index.html',
            'Accept-Language': 'zh-CN,zh-TW;q=0.9,zh;q=0.8,en;q=0.7',
        }

        response = requests.get(f'http://www.66ip.cn/{page}.html', headers=headers, verify=False)
        html = etree.HTML(response.text)
        trs = html.xpath('//div[@id="main"]//table//tr')
        # print(trs)
        for tr in trs:
            ip = tr.xpath('td[1]/text()')[0]
            port = tr.xpath('td[2]/text()')[0]
            if "." not in ip or "ip" in ip:
                print(f"不是ip {ip}:{port}")
                continue
            print(f"{ip}:{port}",end=" ")
            _find = self.ip_table.find_one({"ip":ip,"post":port})
            # 去重
            if not _find:
                print("ip不存在")
                self.ip_table.insert_one({"ip":ip,"post":port})
            else:
                print("ip已存在")
        
g = get_ip()
for i in range(1,2266):
    g.get_html(i)
    time.sleep(5)

第二种方式

不知道大家有没有在66代理网页上注意到这个

file

这是什么呢,这个应该是提供了一个api接口,我们来看下

file

我们先点击免费HTTP提取,再点击提取

file

我们可以看到,这里就直接提出来了一些代理,既然网站直接给了api,其实我们可以直接提取他们的api,来获取代理

我们来尝试一下

file

我们把这个拿到

http://www.66ip.cn/mo.php?sxb=&tqsl=10&port=&export=&ktip=&sxa=&submit=%CC%E1++%C8%A1&textarea=http%3A%2F%2Fwww.66ip.cn%2F%3Fsxb%3D%26tqsl%3D10%26ports%255B%255D2%3D%26ktip%3D%26sxa%3D%26radio%3Dradio%26submit%3D%25CC%25E1%2B%2B%25C8%25A1

直接请求试试,看是否能得到代理数据

file

确实是可以得到代理数据的,所以我们也可以通过api抓取我们想要的数据

具体的步骤就不贴了

需要的话可以自己尝试下

对于是否使用api

在正常的爬虫数据抓取的时候,个人是比较推荐使用网站给的api

因为api一般是没有啥反爬的,网址是可能有的,而且api的格式一般很固定,而且比较简单,数据处理的时候比较方便

但是也是要根据具体情况来定,就像这个网站,虽然有api接口,但是api返回的代理应该是随机的,这就造成了我们抓的数据后面可能不全

不过你也可以请求很多次,来减少数据缺失的可能性,需要用啥方式,自行决定把!

关注我获取更多内容

相关文章

网友评论

    本文标题:《抓取免费的代理IP供自己使用》【第三章】抓取66代理

    本文链接:https://www.haomeiwen.com/subject/pipekltx.html