美文网首页
Python基本爬虫(URL管理器)

Python基本爬虫(URL管理器)

作者: 原来不语 | 来源:发表于2017-12-12 19:46 被阅读0次

前边已经说到url管理器,所以这块直接上代码

# -*-encoding:utf-8 -*-
class UrlManager(object):
  """docstring for UrlManager"""
  def __init__(self):
    self.new_urls = set()#未爬取的Url集合
    self.old_urls = set()#已爬取的Url集合

def has_new_url(self):
    '''
    判断是否有未爬取的url
    '''
    return self.new_url_size()!=0

def get_new_url(self):
    '''
    获取一个未爬取的url
    '''

    new_url = self.new_urls.pop()
    self.old_urls.add(new_url)
    return new_url

def add_new_url(self,url):
    '''
    将新的Url添加到未爬取的url集合中
    '''
    if url is None:
        return
    if url not in self.new_urls and url not in self.old_urls:
        self.new_urls.add(url)


def add_new_urls(self,urls):
    '''
    将新的URL添加到未爬取的URL集合中
    '''
    if urls is None or len(urls) ==0:
        return
    for url in urls:
        self.add_new_url(url)


def new_url_size(self):
    '''
    获取未爬取的URL集合
    '''
    return len(self.new_urls)

def old_url_size(self):
    '''
    获取已经爬去的url集合大小
    '''
    return len(self.old_urls)

相关文章

  • Python2.7爬虫-爬取简书文章-入门

    参考原文: python开发简单爬虫Python爬虫实战Firefox抓包分析 分为五个模块:主模块、URL管理器...

  • Python基本爬虫(URL管理器)

    前边已经说到url管理器,所以这块直接上代码

  • Python 爬虫学习笔记(一)

    视频教程: 慕课网 Python开发简单爬虫 1.简单爬虫架构 2.爬虫架构的运行流程 3.URL管理器 4.UR...

  • python基础爬虫组成

    基础爬虫的组成部分 python基础爬虫由五部分组成,分别是URL管理器、HTML下载器、HTML解析器、数据存储...

  • 爬虫基础

    爬虫架构 一、爬虫调度端(启动、停止、监视爬虫运行情况) 注意: 二、URL管理器(管理待抓取URL集合和已抓取U...

  • 爬虫的基本操作

    主要模块 主要由这几部分组成: 爬虫调度端(spider_main): 对爬虫流程进行控制 url管理器(url_...

  • Python实现基本爬虫基本爬虫(HTML下载器)

    一、一个基本爬虫框架主要包括五大模块:爬虫调度器,URL管理器,HTML下载器,HTML解析器,数据存储器。 UR...

  • 简单爬虫架构

    整理笔记,来自imooc课程 整体结构 爬虫调度端 URL管理器 网页下载器 网页解析器 URL管理器 管理待抓取...

  • 【imooc】Python开发简单爬虫

    1. 结构相关 1.1 明确爬虫架构 1.2 URL管理器 URL管理器实现方式 互联网公司使用缓存数据库个人可以...

  • Python爬虫与mac下Scrapy配置

    用Python开发爬虫很方便。 本质:抓取---分析---存储 要点: (1)get请求:最基本抓取。用到 url...

网友评论

      本文标题:Python基本爬虫(URL管理器)

      本文链接:https://www.haomeiwen.com/subject/czonixtx.html