爬虫练习P190

作者: 无罪的坏人 | 来源:发表于2019-08-02 16:13 被阅读0次

爬虫练习P190
推荐一个可玩的爬虫开源项目-闲鱼部分我已经测试过
最新的爬虫项目集合，里面项目已经验证能用
爬虫分析之数据存储——基于MySQL,Scrapy
Python爬虫之爬取美女图片
re模块
练习：豆瓣电影TOP250爬虫
python 爬小说
2020-02-01 python 爬虫小练习-下载“百度”图片
简单爬虫练习：爬虫文章

获取代理IP地址

import urllib.request
import re

def open_url(url):
    req = urllib.request.Request(url)
    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36')
    page = urllib.request.urlopen(req)
    html = page.read().decode('utf-8')
    return html

def get_img(html):
    # 第一个正则已经不行了
    # p = r'(([0-1]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])\.){3}([0-1]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])'
    # p = r'\d{0,3}\.\d{0,3}\.\d{0,3}\.\d{0,3}'
    p = r'(?:(?:[0-1]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])\.){3}(?:[0-1]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])'
    imglist = re.findall(p, html)
    for each in imglist:
        print(each)

if __name__ == '__main__':
    # 代理地址改一下，书上的地址http://cn-proxy.com已经挂了
    url = "http://www.data5u.com/"
    get_img(open_url(url))

输出.png

网友评论

本文标题：爬虫练习P190

本文链接：https://www.haomeiwen.com/subject/sagldctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫练习P190

获取代理IP地址

相关文章

爬虫练习P190

推荐一个可玩的爬虫开源项目-闲鱼部分我已经测试过

最新的爬虫项目集合，里面项目已经验证能用

爬虫分析之数据存储——基于MySQL,Scrapy

Python爬虫之爬取美女图片

re模块

练习：豆瓣电影TOP250爬虫

python 爬小说

2020-02-01 python 爬虫小练习-下载“百度”图片

简单爬虫练习：爬虫文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读