人生不得已——Python爬虫 ID遍历爬虫

作者: 阿猫阿狗py | 来源:发表于2018-11-03 16:15 被阅读86次

人生不得已——Python爬虫 ID遍历爬虫
Swfit爬虫通过作者ID无接口获取简书文章列表，正则匹配HTM
人生不得已——Python爬虫链接爬虫
爬虫入门基础
3分钟带你了解世界第一语言Python 入门上手也这么简单！
01-认识爬虫
爬虫入门
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni

最简单的爬取网络页面数据方式

根据链接的规律进行id遍历，但是有时id的变化不一定是连续的，加个小判断可以解决这种情况

import urllib.request
import urllib.parse


def download(url, headers={}, repeatTimes=5):
    if (repeatTimes <= 0):
        return None
    print("downloading:" + url)
    request = urllib.request.Request(url, headers=headers)
    try:
        response = urllib.request.urlopen(request)
    except urllib.error.URLError as e:
        print(e)
        if hasattr(e, 'code') and 500 <= e.code < 600:
            return download(url, headers, repeatTimes-1)
        else:
            return None
    return response.read()


urlFormat = 'http://127.0.0.1/places/default/view/{0}'
countryId = 1
emptyCount = 0
while True:
    # 通过循环传递id参数
    realUrl = urlFormat.format(countryId)
    # 循环一次id加1
    countryId += 1
    # 下载页面
    html = download(realUrl)
    # 如果页面为空，则记录空页面次数
    if html == None:
        emptyCount += 1
        # 当空页面次数超过五次，结束循环
        if emptyCount >= 5:
            break
    else:
        # 如果得到数据，重新置emptyCount为空，等待下次记录
        emptyCount = 0

print('finished')

网友评论

Python爬虫

本文标题：人生不得已——Python爬虫 ID遍历爬虫

本文链接：https://www.haomeiwen.com/subject/qvwkxqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

人生不得已——Python爬虫 ID遍历爬虫

最简单的爬取网络页面数据方式

相关文章

人生不得已——Python爬虫 ID遍历爬虫

Swfit爬虫通过作者ID无接口获取简书文章列表，正则匹配HTM

人生不得已——Python爬虫链接爬虫

爬虫入门基础

3分钟带你了解世界第一语言Python 入门上手也这么简单！

01-认识爬虫

爬虫入门

Python网络爬虫实战之十四：Scrapy结合scrapy-s

Python网络爬虫实战之七：动态网页爬取案例实战 Seleni

Python网络爬虫实战之八：动态网页爬取案例实战 Seleni

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫