python3小说爬虫

作者: tysnd | 来源:发表于2020-02-07 20:15 被阅读0次

5.3黑客成长日记——爬虫篇(1)
python3小说爬虫
python3 爬虫学习python爬虫库-requests使用
崔庆才Python 3开发网络爬虫，教程+书籍
Python3 网络爬虫与开发实战
你对python爬虫略知一二？来看这篇文章我让你快速入门！
用Python爬取猫眼电影排行榜TOP100
电子书单列表
Windows 10 下python3.x安装scrapy
python学习笔记（二）——requests模块

作为一个很喜欢看书的人，有时候在网页上看小说，会被数不胜数的广告弄的很烦，刚好最近在研究python，就自己写了一个小说爬虫，并用pyqt做了图形界面。
下面介绍一下主要思路，不过就不开源了，因为我的程序目前写的也不怎么样，可以使用，但用起来不怎么舒服，性能也有待优化。

一、需求分析

需求分析很重要，不过我要做的只是一个小项目，而且我既是用户也是开发者，就没仔细的做需求分析。简单来说，功能需求有：搜索小说，下载小说，查看书架，看小说（根据目录选择章节）

二、界面设计

已经确定了功能需求有4个，初步想法就是做4个页面：搜索，下载，书架，阅读。不过搜索和下载可以合并为一个页面，所以只需3个页面即可。
但是如果做一个主窗口，再做三个功能窗口，每次选择一个功能时，都要弹出窗口，感觉比较麻烦，所以我用了QSplitter和QFrame控件进行窗口内页面替换，类似steam的商店，库，社区按钮的效果。
下面展示一下我做的界面，比较质朴，都是用的最原始的控件。

书架

bookshelf.png

搜索

search.png

阅读

read.png

三、主要功能的实现和封装

仔细分析一下功能需求，具体要做的事都有：
搜索：发送http请求，得到搜索内容
下载：抓取小说的所有内容
书架：读取本地已下载的书，显示
阅读：显示小说目录，选取章节显示本章内容

其实不难看出，搜索和下载，用到的其实就是爬虫；而其他的都是对pyqt的一些基础控件控件的操作。而对于基础控件的操作较为简单，所以这个项目的核心是爬虫。
我决定采用urllib库和BeautifulSoup库写爬虫。
爬虫对于不同的网站，要作出相应的调整。具体怎么写这里不加赘述，同样只提供思路：
先通过urllib库抓取网页内容，然后用beautiful soup进行解析。
（beautiful soup非常强大，可以方便的处理HTML和xml等格式的文件。）解析得到需要的结果，写入文件或在pyqt的控件中显示。

四、初步优化

软件构思的非常好，但写出来后，发现不尽如人意，性能，稳定性都需要改进。具体表现在：

1.抓取加分析网页的时间较长，若小说章节多，则下载耗时长。

2.循环抓取每一章有可能卡住，导致无法继续抓取。经过分析是urllib.request会卡死，具体原因还在研究。

目前我采用了两个措施来进行改进：

1.多线程抓取

最多开设5个线程进行抓取，可以节省下载时间。而且提高程序的稳定性：若一个线程停止，还可以有其他线程进行抓取。

2.pv操作防止死锁

这个是为了解决线程的同步性问题和限制最大线程数的。具体请参见操作系统死锁方面的相关知识。我是使用threading.Semaphore进行信号量的pv操作。

五、打包成可移植的EXE文件

我使用了pyinstaller进行多个py文件的打包，打包为可移植的exe文件。最近有时间了可能会写一篇博客介绍pyinstaller的用法。网上也可以很容易的查到，这里就不多说了。

最后说一点感想：

很久没有静下心来研究技术，开发程序了。平时要上课，没有成块的时间。刚好趁着假期，做点想做的东西。
同时，纸上得来终觉浅，绝知此事要躬行，在做这个软件的过程中，我也实际运用了在课上学过的一些东西。
之前，我做软件基本只注重结果。程序只要能运行成功，满足使用要求就行了。在学完人机交互之后，现在我在开发软件的过程中，也在时刻注意编程的规范性和可维护性，注意对写的代码进行合理的封装。
另外，我原来也写过多线程的程序，但是不知道线程的同步可能产生的问题，程序的健壮性可想而知。最近通过学习操作系统，我了解了死锁、临界区等在并发需要注意的东西，而且也在实际编程中对其进行了处理。
总而言之，这个项目我还会继续做下去。一方面这个软件对自己有用，另一方面也可以激励自己更加深入的学习一些东西，并且实际运用。

网友评论

本文标题：python3小说爬虫

本文链接：https://www.haomeiwen.com/subject/gzsmxhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python3小说爬虫

一、需求分析

二、界面设计

书架

搜索

阅读

三、主要功能的实现和封装

四、初步优化

1.抓取加分析网页的时间较长，若小说章节多，则下载耗时长。

2.循环抓取每一章有可能卡住，导致无法继续抓取。经过分析是urllib.request会卡死，具体原因还在研究。

1.多线程抓取

2.pv操作防止死锁

五、打包成可移植的EXE文件

最后说一点感想：

相关文章

5.3黑客成长日记——爬虫篇(1)

python3小说爬虫

python3 爬虫学习python爬虫库-requests使用

崔庆才Python 3开发网络爬虫，教程+书籍

Python3 网络爬虫与开发实战

你对python爬虫略知一二？来看这篇文章我让你快速入门！

用Python爬取猫眼电影排行榜TOP100

电子书单列表

Windows 10 下python3.x安装scrapy

python学习笔记（二）——requests模块

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读