Python爬虫——异步爬虫，两百四十多万字，六百章的小说20秒

作者: 白巧克力LIN | 来源:发表于2021-09-04 10:09 被阅读0次

大家好！我是霖hero。

相信很多人喜欢在空闲的时间里看小说，甚至有小部分人为了追小说而熬夜看，那么问题来了，喜欢看小说的小伙伴在评论区告诉我们为什么喜欢看小说，今天我们手把手教你使用异步协程20秒爬完两百四十多万字，六百章的小说，让你一次看个够。

在爬取之前我们先来简单了解一下什么是同步，什么是异步协程？

同步与异步

同步

同步是有序，为了完成某个任务，在执行的过程中，按照顺序一步一步执行下去，直到任务完成。

爬虫是IO密集型任务，我们使用requests请求库来爬取某个站点时，网络顺畅无阻塞的时候，正常情况如下图所示：

但在网络请求返回数据之前，程序是处于阻塞状态的，程序在等待某个操作完成期间，自身无法继续干别的事情，如下图所示：

当然阻塞可以发生在站点响应后的执行程序那里，执行程序可能是下载程序，大家都知道下载是需要时间的。

当站点没响应或者程序卡在下载程序的时候，CPU一直在等待而不去执行其他程序，那么就白白浪费了CPU的资源，导致我们的爬虫效率很低。

异步

异步是一种比多线程高效得多的并发模型，是无序的，为了完成某个任务，在执行的过程中，不同程序单元之间过程中无需通信协调，也能完成任务的方式，也就是说不相关的程序单元之间可以是异步的。如下图所示：

当请求程序发送网络请求1并收到某个站点的响应后，开始执行程序中的下载程序，由于下载需要时间或者其他原因使处于阻塞状态，请求程序和下载程序是不相关的程序单元，所以请求程序发送下一个网络请求，也就是异步。

微观上异步协程是一个任务一个任务的进行切换，切换条件一般就是IO操作；
宏观上异步协程是多个任务一起在执行；

注意：上面我们所讲的一切都是在单线程的条件下实现。

请求库

我们发送网络请求一定要用到请求库，在Python从多的HTTP客户端中，最常用的请求库莫过于requests、aiohttp、httpx。

在不借助其他第三方库的情况下，requests只能发送同步请求；aiohttp只能发送异步请求；httpx既能发送同步请求，又能发送异步请求。

接下来我们将简单讲解这三个库。

requests库

相信大家对requests库不陌生吧，requests库简单、易用，是python爬虫使用最多的库。

在命令行中运行如下代码，即可完成requests库的安装：

pip install requests

使用requests发送网络请求非常简单，

在本例中，我们使用get网络请求来获取百度首页的源代码，具体代码如下：

import requests
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
response=requests.get('https://baidu.com',headers=headers)
response.encoding='utf-8'
print(response.text)

运行部分结果如下图：

首先我们导入requests库，创建请求头，请求头中包含了User-Agent字段信息，也就是浏览器标识信息，如果不加这个，网站就可能禁止抓取，然后调用get()方法发送get请求，传入的参数为URL链接和请求头，这样简单的网络请求就完成了。

这里我们返回打印输出的是百度的源代码，大家可以根据需求返回输出其他类型的数据。

需要注意的是：

百度源代码的head部分的编码为：utf-8，如下图所示：

我们利用requests库的方法来查看默认的编码类型是什么，具体代码如下所示：

import requests
url = 'https://www.baidu.com'
response = requests.get(url)
print(response.encoding)

运行结果为：ISO-8859-1

由于默认的编码类型不同，所以需要更改输出的编码类型，更改方式也很简单，只需要在返回数据前根据head部分的编码来添加以下代码即可：

response.encoding='编码类型'

除了使用get()方法实现get请求外，还可以使用post()、put()、delete()等方法来发送其他网络请求，在这里就不一一演示了，关于更多的requests网络请求库用法可以到官方参考文档进行查看，我们今天主要讲解可以发送异步请求的aiohttp库和httpx库。

asyncio模块

在讲解异步请求aiohttp库和httpx库请求前，我们需要先了解一下协程。

协程是一种比线程更加轻量级的存在，让单线程跑出了并发的效果，对计算资源的利用率高，开销小的系统调度机制。

Python中实现协程的模块有很多，我们主要来讲解asyncio模块，从asyncio模块中直接获取一个EventLoop的引用，把需要执行的协程放在EventLoop中执行，这就实现了异步协程。

协程通过async语法进行声明为异步协程方法，await语法进行声明为异步协程可等待对象，是编写asyncio应用的推荐方式，具体示例代码如下：

import asyncio
import time
async def function1():
    print('I am Superman！！！')
    await asyncio.sleep(3)
    print('function1')

async def function2():
    print('I am Batman！！！')
    await asyncio.sleep(2)
    print('function2')

async def function3():
    print('I am iron man！！！')
    await asyncio.sleep(4)
    print('function3')
    
async def Main():
    tasks=[
        asyncio.create_task(function1()),
        asyncio.create_task(function2()),
        asyncio.create_task(function3()),
    ]
    await asyncio.wait(tasks)
    
if __name__ == '__main__':
    t1=time.time()
    asyncio.run(Main())
    t2=time.time()
    print(t2-t1)

运行结果为：

I am Superman！！！
I am Batman！！！
I am iron man！！！
function2
function1
function3
4.0091118812561035

首先我们用了async来声明三个功能差不多的方法，分别为function1，function2，function3，在方法中使用了await声明为可等待对象，并使用asyncio.sleep()方法使函数休眠一段时间。

再使用async来声明Main()方法，通过调用asyncio.create_task()方法将方法封装成一个任务，并把这些任务存放在列表tasks中，这些任务会被自动调度执行；

最后通过asyncio.run()运行协程程序。

注意：当协程程序出现了同步操作的时候，异步协程就中断了。

例如把上面的示例代码中的await asyncio.sleep()换成time.time()，运行结果为：

I am Superman！！！
function1
I am Batman！！！
function2
I am iron man！！！
function3
9.014737844467163

所以在协程程序中，尽量不使用同步操作。

好了，asyncio模块我们讲解到这里，想要了解更多的可以进入asyncio官方文档进行查看。

aiohttp库

aiohttp是基于asyncio实现的HTTP框架，用于HTTP服务器和客户端。安装方法如下：

pip install aiohttp

aiohttp只能发送异步请求，示例代码如下所示：

import aiohttp
import asyncio
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
async def Main():
    async with aiohttp.ClientSession() as session:
        async with session.get('https://www.baidu.com',headers=headers) as response:
            html = await response.text()
            print(html)
loop=asyncio.get_event_loop()
loop.run_until_complete(Main())

运行结果和前面介绍的requests网络请求一样，如下图所示：

大家可以对比requests网络请求发现，其实aiohttp.ClientSession() as session相当于将requests赋给session，也就是说session相当于requests，而发送网络请求、传入的参数、返回响应内容都和requests请求库大同小异，只是aiohttp请求库需要用async和await进行声明，然后调用asyncio.get_event_loop()方法进入事件循环，再调用loop.run_until_complete(Main())方法运行事件循环，直到Main方法运行结束。

注意：在调用Main()方法时，不能使用下面这条语句：

asyncio.run(Main())

虽然会得到想要的响应，但会报：RuntimeError: Event loop is closed错误。

我们还可以在返回的内容中指定解码方式或编码方式，例如：

await response.text(encoding='utf-8')

或者选择不编码，读取图像：

await resp.read()

好了aiohttp请求库我们学到这里，想要了解更多的可以到pypi官网进行学习。

httpx请求库

在前面我们简单地讲解了requests请求库和aiohttp请求库，requests只能发送同步请求，aiohttp只能发送异步请求，而httpx请求库既可以发送同步请求，又可以发送异步请求，而且比上面两个效率更高。

安装方法如下：

pip install httpx

httpx请求库——同步请求

使用httpx发送同步网络请求也很简单，与requests代码重合度99%，只需要把requests改成httpx即可正常运行。

具体示例代码如下：

import httpx
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
response=httpx.get('https://www.baidu.com',headers=headers)
print(response.text)

运行结果如下图所示：

注意：httpx使用的默认utf-8进行编码来解码响应。

httpx请求库——同步请求高级用法

当发送请求时，httpx必须为每个请求建立一个新连接（连接不会被重用），随着对主机的请求数量增加，网络请求的效率就是变得很低。

这时我们可以用Client实例来使用HTTP连接池，这样当我们主机发送多个请求时，Client将重用底层的TCP连接，而不是为重新创建每个请求。

with块用法如下：

with httpx.Client() as client:
    ...

我们把Client作为上下文管理器，并使用with块，当执行完with语句时，程序会自动清理连接。

当然我们可以使用.close()显式关闭连接池，用法如下：

client = httpx.Client()
try:
    ...
finally:
    client.close()

为了我们的代码更简洁，我们推荐使用with块写法，具体示例代码如下：

import httpx
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
with httpx.Client(headers=headers)as client:
    response=client.get('https://www.baidu.com')
    print(response.text)

其中httpx.Client()as client相当于把httpx的功能传递给client，也就是说示例中的client相当于httpx，接着我们就可以使用client来调用get请求。

注意：我们传递的参数可以放在httpx.Client()里面，也可以传递到get()方法里面。

httpx请求库——异步请求

要发送异步请求时，我们需要调用AsyncClient，具体示例代码如下：

import httpx
import asyncio
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
async def function():
    async with httpx.AsyncClient()as client:
        response=await client.get('https://www.baidu.com',headers=headers)
        print(response.text)
if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(function())

运行结果为：

首先我们导入了httpx库和asyncio模块，使用async来声明function()方法并用来声明with块的客户端打开和关闭，用await来声明异步协程可等待对象response。接着我们调用asyncio.get_event_loop()方法进入事件循环，再调用loop.run_until_complete(function())方法运行事件循环，直到function运行结束。

好了，httpx请求库讲解到这里，想要了解更多的可以到httpx官方文档进行学习，接下来我们正式开始爬取小说。

实战演练

接下来我们将使用requests请求库同步和httpx请求库的异步，两者结合爬取17k小说网里面的百万字小说，利用XPath来做相应的信息提取。

Xpath小技巧

在使用Xpath之前，我们先来介绍使用Xpath的小技巧。

技巧一：快速获取与内容匹配的Xpath范围。

我们可以将鼠标移动到我们想要获取到内容div的位置并右击选择copy，如下图所示：

这样我们就可以成功获取到内容匹配的Xpath范围了。

技巧二：快速获取Xpath范围匹配的内容。

当我们写好Xpath匹配的范围后，可以通过Chrome浏览器的小插件Xpath Helper，该插件的安装方式很简单，在浏览器应用商店中搜索Xpath Helper，点击添加即可，如下图所示：

使用方法也很简单，如下图所示：

首先我们点击刚刚添加的插件，然后把已经写好的Xpath范围写到上图2的方框里面，接着Xpath匹配的内容将出现在上图3方框里面，接着被匹配内容的背景色全部变成了金色，那么我们匹配内容就一目了然了。

这样我们就不需要每写一个Xpath范围就运行一次程序查看匹配内容，大大提高了我们效率。

获取小说章节名和链接

首先我们选取爬取的目标小说，并打开开发者工具，如下图所示：

我们通过上图可以发现，<div class="Main List"存放着我们所有小说章节名，点击该章节就可以跳转到对应的章节页面，所以可以使用Xpath来通过这个div来获取到我们想要的章节名和URL链接。

由于我们获取的章节名和URL链接的网络请求只有一个，直接使用requests请求库发送同步请求，主要代码如下所示：

async def get_link(url):
    response=requests.get(url)
    response.encoding='utf-8'
    Xpath=parsel.Selector(response.text)
    dd=Xpath.xpath('/html/body/div[5]')
    for a in dd:
        #获取每章节的url链接
        links=a.xpath('./dl/dd/a/@href').extract()
        linklist=['https://www.17k.com'+link for link in links]
        #获取每章节的名字
        names=a.xpath('./dl/dd/a/span/text()').extract()
        namelist=[name.replace('\n','').replace('\t','') for name in names]
        #将名字和url链接合并成一个元组
        name_link_list=zip(namelist,linklist)

首先我们用async声明定义的get_text()方法使用requests库发送get请求并把解码方式改成'utf-8'，接着使用parsel.Selector()方法将文本构成Xpath解析对象，最后我们将获取到的URL链接和章节名合并成一个元组。

获取到URL链接和章节名后，需要构造一个task任务列表来作为异步协程的可等待对象，具体代码如下所示：

task=[]
for name,link in name_link_list:
    task.append(get_text(name,link))
await asyncio.wait(task)

我们创建了一个空列表，用来存放get_text()方法，并使用await调用asyncio.wait()方法保存创建的task任务。

获取每章节的小说内容

由于需要发送很多个章节的网络请求，所以我们采用httpx请求库来发送异步请求。

主要代码如下所示：

async def get_text(name,link):
    async with httpx.AsyncClient() as client:
        response=await client.get(link)
        html=etree.HTML(response.text)
        text=html.xpath('//*[@id="readArea"]/div[1]/div[2]/p/text()')
        await save_data(name,text)

首先我们将上一步的获取到的章节名和URL链接传递到用async声明定义的get_text()方法，使用with块调用httpx.AsyncClient()方法，并使用await来声明client.get()是可等待对象，然后使用etree模块来构造一个XPath解析对象并自动修正HTML文本，将获取到的小说内容和章节名传入到自定义方法save_data中。

保存小说内容到text文本中

好了，我们已经把章节名和小说内容获取下来了，接下来就要把内容保存在text文本中，具体代码如下所示：

async def save_data(name,text):
    f=open(f'小说/{name}.txt','w',encoding='utf-8')
    for texts in text:
        f.write(texts)
        f.write('\n')
        print(f'正在爬取{name}')

老规矩，首先用async来声明save_data()协程方法save_data()，然后使用open()方法，将text文本文件打开并调用write()方法把小说内容写入文本中。

最后调用asyncio.get_event_loop()方法进入事件循环，再调用loop.run_until_complete(get_link())方法运行事件循环，直到function运行结束。具体代码如下所示：

url='https://www.17k.com/list/2536069.html'
loop = asyncio.get_event_loop()
loop.run_until_complete(get_link(url))

结果展示

image

好了，异步爬虫爬取小说就讲解到这里了，感谢观看！！！

Python爬虫——异步爬虫，两百四十多万字，六百章的小说20秒

同步与异步

同步

异步

请求库

requests库

asyncio模块

aiohttp库

httpx请求库

httpx请求库——同步请求

httpx请求库——同步请求高级用法

httpx请求库——异步请求

实战演练

Xpath小技巧

获取小说章节名和链接

获取每章节的小说内容

保存小说内容到text文本中

结果展示

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python机器学习爬虫

Python

待看科技

python_爬虫

Python爬虫