循环获取链接

作者: IthinkIcanfly | 来源:发表于2018-10-09 15:40 被阅读0次

循环获取链接
Python爬虫简谱网-简谱
Python 爬虫第四篇（保存数据到文件）
Python学习笔记——Python数据类型
获取元素和循环
thyleaf 语法
2018-12-03标签获取元素和循环
获取元素和循环
JavaScript中的循环遍历研究
斗图？拥有几个G表情的我怕过谁

from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError
from bs4 import BeautifulSoup
import random
import datetime
import re

pages = set()
random.seed(datetime.datetime.now())

def getInternalLinks(bsObject,includeUrl):
        internalLinks = []
        for link in bsObject.findAll('a',href = re.compile('^(/|.{0,2}' + includeUrl + ')')):
                if link.attrs['href'] is not None:
                        href = 'http://' + re.sub('^(.|/)+','',link.attrs['href'])
                        if href not in internalLinks:
                                internalLinks.append(href)
        return(internalLinks)

def splitAddress(address):
    addressParts = address.replace('http://','').split('/')
    return(addressParts)

def getExternalLinks(bsObject,excludeUrl):
    externalLinks = []
    for link in bsObject.findAll('a',{'href': re.compile('^(http)((?!' + excludeUrl + ').)*$')}):
        if link.attrs['href'] is not None:
            href = link.attrs['href']
            if href not in externalLinks:
                externalLinks.append(href)
    return(externalLinks)

def getRandomExternalLink(startingPage):
        html = urlopen(startingPage)
        bsObject = BeautifulSoup(html,'html.parser')
        externalLinks = getExternalLinks(bsObject,splitAddress(startingPage)[0])
        if len(externalLinks) == 0:
                internalLinks = getInternalLinks(bsObject,splitAddress(startingPage)[0])
                return(getRandomExternalLink(internalLinks[random.randint(0,len(internalLinks) - 1)]))
        else:
                return(externalLinks[random.randint(0,len(externalLinks) - 1)])

def followExternalOnly(startingSite):
        externalLink = getRandomExternalLink(startingSite)
        print('随机外链是: ' + externalLink)
        try:
            followExternalOnly(externalLink)
        except (HTTPError,ValueError,URLError):
            followExternalOnly(startingSite)

followExternalOnly('http://www.baidu.com/')

网友评论

本文标题：循环获取链接

本文链接：https://www.haomeiwen.com/subject/clxyaftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

循环获取链接

相关文章

循环获取链接

Python爬虫简谱网-简谱

Python 爬虫第四篇（保存数据到文件）

Python学习笔记——Python数据类型

获取元素和循环

thyleaf 语法

2018-12-03标签获取元素和循环

获取元素和循环

JavaScript中的循环遍历研究

斗图？拥有几个G表情的我怕过谁

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读