首发于:https://mp.weixin.qq.com/s/KwPInaFKjgo6fcOKNEOItw
抓取66代理
准备
- 网址:http://www.66ip.cn/
- 系统:windows
- 浏览器:Google
- 语言:python
- 版本:3.7
- 数据库:MongoDB
分析网址
先打开网址看下:http://www.66ip.cn/
![](https://img.haomeiwen.com/i11462024/0edea8d337e9ba37.png)
点击全国代理ip,应该就是所有的ip了,那我们就抓这里
这里详细的分析过程就省略了,也是很简单,和第二章基本是一样的,可以参考之前的文章
直接贴代码了
代码实现
import requests
from lxml import etree
import pymongo
import time
class get_ip:
def __init__(self):
_mongo = pymongo.MongoClient(host="127.0.0.1",port=27017)
db = _mongo.IPS
self.ip_table = db["ip_table"]
def get_html(self,page):
headers = {
'Connection': 'keep-alive',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Referer': 'http://www.66ip.cn/index.html',
'Accept-Language': 'zh-CN,zh-TW;q=0.9,zh;q=0.8,en;q=0.7',
}
response = requests.get(f'http://www.66ip.cn/{page}.html', headers=headers, verify=False)
html = etree.HTML(response.text)
trs = html.xpath('//div[@id="main"]//table//tr')
# print(trs)
for tr in trs:
ip = tr.xpath('td[1]/text()')[0]
port = tr.xpath('td[2]/text()')[0]
if "." not in ip or "ip" in ip:
print(f"不是ip {ip}:{port}")
continue
print(f"{ip}:{port}",end=" ")
_find = self.ip_table.find_one({"ip":ip,"post":port})
# 去重
if not _find:
print("ip不存在")
self.ip_table.insert_one({"ip":ip,"post":port})
else:
print("ip已存在")
g = get_ip()
for i in range(1,2266):
g.get_html(i)
time.sleep(5)
第二种方式
不知道大家有没有在66代理网页上注意到这个
![](https://img.haomeiwen.com/i11462024/f572cfabe5f02cfe.png)
这是什么呢,这个应该是提供了一个api接口,我们来看下
![](https://img.haomeiwen.com/i11462024/71decc09e090df9e.png)
我们先点击免费HTTP提取,再点击提取
![](https://img.haomeiwen.com/i11462024/c0093f157db3dc92.png)
我们可以看到,这里就直接提出来了一些代理,既然网站直接给了api,其实我们可以直接提取他们的api,来获取代理
我们来尝试一下
![](https://img.haomeiwen.com/i11462024/0b271783f3f9bc49.png)
我们把这个拿到
直接请求试试,看是否能得到代理数据
![](https://img.haomeiwen.com/i11462024/9c55886e77372910.png)
确实是可以得到代理数据的,所以我们也可以通过api抓取我们想要的数据
具体的步骤就不贴了
需要的话可以自己尝试下
对于是否使用api
在正常的爬虫数据抓取的时候,个人是比较推荐使用网站给的api
因为api一般是没有啥反爬的,网址是可能有的,而且api的格式一般很固定,而且比较简单,数据处理的时候比较方便
但是也是要根据具体情况来定,就像这个网站,虽然有api接口,但是api返回的代理应该是随机的,这就造成了我们抓的数据后面可能不全
不过你也可以请求很多次,来减少数据缺失的可能性,需要用啥方式,自行决定把!
关注我获取更多内容
网友评论