Python爬虫必须理解队列

作者: 泡泡坪 | 来源:发表于2018-11-03 20:48 被阅读2次

Python爬虫必须理解队列
Python｜成为爬虫大牛，这个知识点队列Queue你一定要理解
2020年最全Python常用爬虫代码就这些了（附爬虫教程）
scrapy redis分布式爬虫
分布式爬虫| 你必须得懂的那些Redis基础
多线程爬虫
3分钟带你了解世界第一语言Python 入门上手也这么简单！
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（二）- urllib爬虫案例

队列是python标准库中的线程安全的队列（FIFO）实现，提供了一个适用于多线程编程的先进先出的数据结构，即队列，用来在生产者和消费者线程之间的信息传递

基本FIFO队列

class Queue.Queue（maxsize = 0）

FIFO即先进先出，先进先出.Queue提供了一个基本的FIFO容器，使用方法很简单，maxsize是个整数，指明了队列中能存放的数据个数的上限。一旦达到上限，插入会导致阻塞，直到队列中的数据被消费掉。如果MAXSIZE小于或者等于0，队列大小没有限制。

举个栗子：

import Queue

q = Queue.Queue()

for i in range(5):
    q.put(i)

while not q.empty():
    print q.get()

输出：

后进先出队列

class Queue.LifoQueue（maxsize = 0）

LIFO即Last in First Out，后进先出。与栈的类似，使用也很简单，maxsize用法同上

再举个栗子：

import Queue

q = Queue.LifoQueue()

for i in range(5):
    q.put(i)

while not q.empty():
    print q.get()

输出：

可以看到仅仅是将Queue.Quenu类替换为Queue.LifiQueue类

优先级队列

class Queue.PriorityQueue（maxsize = 0）

构造一个优先队列.maxsize用法同上。

import Queue
import threading

class Job(object):
    def __init__(self, priority, description):
        self.priority = priority
        self.description = description
        print 'Job:',description
        return
    def __cmp__(self, other):
        return cmp(self.priority, other.priority)

q = Queue.PriorityQueue()

q.put(Job(3, 'level 3 job'))
q.put(Job(10, 'level 10 job'))
q.put(Job(1, 'level 1 job'))

def process_job(q):
    while True:
        next_job = q.get()
        print 'for:', next_job.description
        q.task_done()

workers = [threading.Thread(target=process_job, args=(q,)),
        threading.Thread(target=process_job, args=(q,))
        ]

for w in workers:
    w.setDaemon(True)
    w.start()

q.join()

结果

Job: level 3 job
Job: level 10 job
Job: level 1 job
for: level 1 job
for: level 3 job
for: job: level 10 job

一些常用方法

task_done（）

意味着之前入队的一个任务已经完成。由队列的消费者线程调用。每一个get（）方法调用得到一个任务，接下来的task_done（）调用告诉队列该任务已经处理完毕。

如果当前一个join（）方法正在阻塞，它将在队列中的所有任务都处理完时恢复执行（即每一个由把（）调用入队的任务都有一个对应的task_done（）调用）。

加入（）

阻塞调用线程，直到队列中的所有任务被处理掉。

只要有数据被加入队列，未完成的任务数就会增加。当消费者线程调用task_done（）（意味着有消费者取得任务并完成任务），未完成的任务数就会减少。当未完成的任务数降到0，加入（）解除阻塞。

put（item [，block [，timeout]]）

将项目放入队列中。

如果可选的参数块为真且超时为空对象（默认的情况，阻塞调用，无超时）。
如果超时是个正整数，阻塞调用进程最多超时秒，如果一直无空空间可用，抛出全异常（带超时的阻塞调用）。
如果块为False，如果有空闲空间可用将数据放入队列，否则立即抛出全异常
其非阻塞版本为put_nowait等同于put（item，False）

get（[block [，timeout]]）

从队列中移除并返回一个数据.block跟超时参数同放方法

其非阻塞方法为get_nowait（）相当与GET（假）

原文地址：HTTPS：//www.cnblogs.com/itogo/p/5635629.html

网友评论

本文标题：Python爬虫必须理解队列

本文链接：https://www.haomeiwen.com/subject/qbllxqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！