多线程、多进程

作者: 咻咻咻滴赵大妞 | 来源:发表于2018-12-30 20:34 被阅读0次

一个多线程、多进程的脚本
Python多线程,多进程
多线程介绍
多进程和多线程编程
Python time、进程、线程、协程(异步IO)
python 进程，队列
并发编程之Concurrent.futures vs Multi
【Java 基础你一定要掌握的知识点】多线程
Gunicorn源码分析（二）Worker进程
多线程及网络编程

并发：指的是任务数多余cpu核数，通过操作系统的各种任务调度算法，实现用多个任务“一起”执行（实际上总有一些任务不在执行，因为切换任务的速度相当快，看上去一起执行而已）

并行：指的是任务数小于等于cpu核数，即任务真的是一起执行的

线程

多线程执行

#coding=utf-8
import threading
import time

def saySorry():
　　for i in range(5):
        print("亲爱的，我错了，我能吃饭了吗？")
        time.sleep(1)

def do():
    for i in range(5):
        print("亲爱的，我错了，我给你按摩")
        time.sleep(1)

if __name__ == "__main__":
    td1 = threading.Thread(target=saySorry)
    td1.start() #启动线程，即让线程开始执行
    td2 = threading.Thread(target=saySorry)
    td2.start() #启动线程，即让线程开始执行

threading.Thread参数介绍

target:线程执行的函数

name:线程名称

args:执行函数中需要传递的参数，元组类型另外：注意daemon参数

如果某个子线程的daemon属性为False，主线程结束时会检测该子线程是否结束，如果该子线程还在运行，则主线程会等待它完成后再退出；

如果某个子线程的daemon属性为True，主线程运行结束时不对这个子线程进行检查而直接退出，同时所有daemon值为True的子线程将随主线程一起结束，而不论是否运行完成。

属性daemon的值默认为False，如果需要修改，必须在调用start()方法启动线程之前进行设置

多线程-共享全局变量

互斥锁

上锁解锁过程当一个线程调用锁的acquire()方法获得锁时，锁就进入“locked”状态。

每次只有一个线程可以获得锁。如果此时另一个线程试图获得这个锁，该线程就会变为“blocked”状态，称为“阻塞”，直到拥有锁的线程调用锁的release()方法释放锁之后，锁进入“unlocked”状态。

线程调度程序从处于同步阻塞状态的线程中选择一个来获得锁，并使得该线程进入运行（running）状态。

锁的好处：

确保了某段关键代码只能由一个线程从头到尾完整地执行

锁的坏处：

阻止了多线程并发执行，包含锁的某段代码实际上只能以单线程模式执行，效率就大大地下降了
由于可以存在多个锁，不同的线程持有不同的锁，并试图获取对方持有的锁时，可能会造成死锁

多线程爬虫

import queue
import requests
import threading
from lxml import etree
import json
'''
#maxsize=0:队列中能够存储的最大的数据量
data_que = queue.Queue(maxsize=40)

for i in range(0,50):
    if not data_que.full():
        data_que.put(i)

#判断队列是否为空
isempty = data_que.empty()
print(isempty)

#判断队列是否存满
isfull = data_que.full()
print(isfull)

#返回队列的大小
size = data_que.qsize()
print(size)

#FIFO先进先出
print(data_que.get())
print(data_que.get())
'''
#注意：队列是线程之间常用的数据交换形式，因为队列在线程间，是线程安全的
'''
1.创建一个任务队列：存放的是待爬取的url地址
2.创建爬取线程，执行任务下载
3.创建数据队列：存放爬取线程获取到的页面源码
4.创建解析线程：提取解析html源码，提取目标数据，存储本地，进行数据持久化
'''
#获取jobbole的文章列表
# http://blog.jobbole.com/all-posts/page/1/
# http://blog.jobbole.com/all-posts/page/2/
# http://blog.jobbole.com/all-posts/page/3/

def download_page_data(taskQueue,dataQueue):
    """
    执行下载任务
    :param taskQueue:从任务队列里面取出任务
    :param dataQueue: 将获取到的页面源码存到dataQueue队列中
    :return:
    """
    while not taskQueue.empty():
        page = taskQueue.get()
        print('正在下载'+str(page)+'页',threading.currentThread().name)
        full_url = 'http://blog.jobbole.com/all-posts/page/%s/'%str(page)
        req_header = {
            'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
        }
        response = requests.get(full_url,headers=req_header)
        if response.status_code == 200:
            #将获取到的页面源码存到dataQueue队列中
            dataQueue.put(response.text)
        else:
            taskQueue.put(page)

def parse_data(dataQueue,lock):
    """
    解析数据，从dataQueue里取出数据进行解析
    :param dataQueue:
    :return:
    """
    while not dataQueue.empty():
        print('正在解析',threading.currentThread().name)
        html = dataQueue.get()
        html_element = etree.HTML(html)
        articles = html_element.xpath('.//div[@class="post floated-thumb"]')

        for article in articles:
            articleInfo = {}
            #标题
            articleInfo['title'] = article.xpath('.//a[@class="archive-title"]/text()')[0]
            #封面
            img_element = article.xpath('.//div[@class="post-thumb"]/a/img')

            if len(img_element) > 0:
                articleInfo['coverImage'] = img_element[0].xpath('./@src')[0]
            else:
                articleInfo['coverImage'] = '暂无图片'
            p_as = article.xpath('.//div[@class="post-meta"]/p[1]//a')

            if len(p_as) > 2:
                #tag类型
                articleInfo['tag'] = p_as[1].xpath('./text()')[0]
                #评论量
                articleInfo['commentNum'] = p_as[2].xpath('./text()')[0]
            else:
                # tag类型
                articleInfo['tag'] = p_as[1].xpath('./text()')[0]
                # 评论量
                articleInfo['commentNum'] = '0'
            #简介
            articleInfo['content'] = article.xpath('.//span[@class="excerpt"]/p/text()')[0]
            #时间
            articleInfo['publishTime'] = ''.join(article.xpath('.//div[@class="post-meta"]/p[1]/text()')).replace('\n','').replace(' ','').replace('\r','').replace('·','')

            lock.acquire() #加锁
            with open('jobbole.json','a+',encoding='utf-8') as file:
                json_str = json.dumps(articleInfo,ensure_ascii=False) + '\n'
                file.write(json_str)
            lock.release() #解锁

if __name__ == '__main__':
    #1.创建任务队列
    taskQueue = queue.Queue()
    for i in range(1,201):
        taskQueue.put(i)

    # 创建数据队列
    dataQueue = queue.Queue()

    #创建线程执行下载任务
    threadingname = ['下载线程1号','下载线程2号','下载线程3号','下载线程4号']
    crawl_thread = []
    for name in threadingname:
        #创建线程
        thread_crawl = threading.Thread(
            target=download_page_data,
            name=name,
            args=(taskQueue,dataQueue)

        )
        crawl_thread.append(thread_crawl)
        #开始线程
        thread_crawl.start()

    #让所有的爬取线程执行完毕，在回到主线程中继续执行
    for thread in crawl_thread:
        thread.join()

#####################################################################


    #加线程锁
    lock = threading.Lock()
    #创建解析线程，从dataQueue队列中取出页面源码，进行解析
    threadingname = ['解析线程1号', '解析线程2号', '解析线程3号', '解析线程4号']
    parse_thread = []
    for name in threadingname:
        # 创建线程
        thread_parse = threading.Thread(
            target=parse_data,
            name=name,
            args=(dataQueue,lock)
        )
        parse_thread.append(thread_parse)
        # 开始线程
        thread_parse.start()

    # 让所有的爬取线程执行完毕，在回到主线程中继续执行
    for thread in crawl_thread:
        thread.join()
    print('over')

多进程

进程的创建-multiprocessing

from multiprocessing import Process
import time


def run_proc():
    """子进程要执行的代码"""
    while True:
        print("----2----")
        time.sleep(1)


if __name__=='__main__':
    p = Process(target=run_proc)
    p.start()
    while True:
        print("----1----")
        time.sleep(1)

创建子进程时，只需要传入一个执行函数和函数的参数，创建一个Process实例，用start()方法启动

一个多线程、多进程的脚本
IO 密集多尽量用多线程,CPU 密集尽量用多进程
Python多线程,多进程
以实用为目的，记几个python的多线程，多进程模块一、多线程 Thread模块 Threading模块当多线...
多线程介绍
一、进程与线程进程介绍线程介绍线程的串行二、多线程多线程介绍多线程原理多线程的优缺点多线程优点： ...
多进程和多线程编程
多任务的实现方式：多进程模式多线程模式多进程 + 多线程模式python即支持多进程，又支持多线程，如下进...
Python time、进程、线程、协程(异步IO)
Python既支持多进程，又支持多线程 time 多进程 multiprocessing 通常在计算密集型时使用多...
python 进程，队列
1.进程，队列在python中虽然不能发挥多线程的优势，但是对于tensorflow中，多线程任务，我们可以写多...
并发编程之Concurrent.futures vs Multi
并发编程是刚需，尤其是在多I/O操作时，多线程，协程，多进程三路英雄各显神通。多线程，协程属于并发操作，多进程属于...
【Java 基础你一定要掌握的知识点】多线程
Java 给多线程编程提供了内置的支持。在多线程编程之前，我们需要先了解什么是线程。进程和多线程简介进程：进程...
Gunicorn源码分析（二）Worker进程
Gunicorn.worker实现了不同类型的work进程，有单进程、多线程、多协程等形式。 gunicorn.w...
多线程及网络编程
多线程1.多线程的概述: 进程有多条执行路径,合称为多线程.进程:可执行文件(程序).eg:exe文件线程:进程的...

多线程、多进程

线程

多线程-共享全局变量

互斥锁

多线程爬虫

多进程

相关文章

一个多线程、多进程的脚本

Python多线程,多进程

多线程介绍

多进程和多线程编程

Python time、进程、线程、协程(异步IO)

python 进程，队列

并发编程之Concurrent.futures vs Multi

【Java 基础你一定要掌握的知识点】多线程

Gunicorn源码分析（二）Worker进程

多线程及网络编程

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读