python 爬取全本免费小说网的小说

python 爬取全本免费小说网的小说

作者: 9ba4bd5525b9 | 来源:发表于2019-07-31 15:42 被阅读112次

python 爬取全本免费小说网的小说
使用node制作爬虫
BeautifulSoup4小试牛刀
Python爬虫实战
爬取小说网站章节和小说语音播放（文章末-->获取源码）
利用Python攻破笔趣阁小说限制，海量小说免费看！
python实战项目：爬取某小说网
利用Python爬取妙笔阁小说网站的小说信息并保存为txt和cs
利用python爬取某小说网站
【Python】利用lxml爬取起点小说网小说

思路：

首先，选择网址：http://www.yznnw.com/files/article/html/1/1129/index.html 这个是全本免费小说网上《龙血战神》的网址：

F12,分析网页元素，可以看到，在此页的 .zjlist4 li a 下存放了所有章节的URL，首先我们要获取这些url放在一个数组里。然后循环遍历下载

有了这些网址后开始分析具体的每一章：

书名：

章节名：

内容：

下一章：

　　有了这些信息我们就可以开始爬取了（其实这里可以不爬取下一章的，主要我之前的思路是：下载小说的第一章后，返回小说的下一章，之后不断递归直到最后一页，这么做后下载速度慢，不能并发，还有就是一直递归占用资源大，一直请求服务器会断开连接，导致失败）

　　所以我换成了这种思路：就是先获取所有的章节的网页连接，再用线程（你也可以用进程）开始下载，果然速度上升了好多，

　　但是，仔细分析后发现，其实有些章节是作者的感言啥的，这些是不用下载的，而真正的章节的标题一定含有：****章*****，所以要用正则排除掉（这个要具体分析，不一定每个作者的感言标题都是这样的，不过直接使用此程序也可以，这样也没啥）

代码如下：

如果要下载其他书的话，找到书的首页，添加到如下位置：

　　　找书的首页URL，随便点开一章，删除后面的***.html,后回车，就是这本书的首页URL。

　　运行结果：

相关文章

python 爬取全本免费小说网的小说
思路：首先，选择网址：http://www.yznnw.com/files/article/html/1/112...
使用node制作爬虫
目标：爬取免费小说网站和免费视频网站为什么爬取免费网站呢？主要是我认为所有像优酷、腾讯或者起点这类会员制网站...
BeautifulSoup4小试牛刀
python真好玩，python真有趣，python真该死！尝试爬取起点中文网的小说，因为他家的小说网页比较复杂，...
Python爬虫实战
爬取小说网站上的小说并下载到本地导入库 request：用来请求网页re：导入正则表达式确定需要爬取的小说网址...
爬取小说网站章节和小说语音播放（文章末-->获取源码）
爬取小说网站章节和小说语音播放（文章末-->获取源码）爬去小说网站说干就干！！现在来了,撸起袖子开始就是干!!...
利用Python攻破笔趣阁小说限制，海量小说免费看！
前言很多人想看小说，不知道哪里有好小说看？今天小编教你爬取全网最火的小说网站，海量小说免费看！开发工具 Pyt...
python实战项目：爬取某小说网
项目文档：项目简介：爬取某小说网首页中的全部小说，并储存到数据库中项目版本：python2.7.12项目源码：源...
利用Python爬取妙笔阁小说网站的小说信息并保存为txt和cs
本次爬取的是妙笔阁小说网仙侠系列中所有小说的信息，打开网页会看到如下图所示的小说列表。根据列表，选择爬取小说的书...
利用python爬取某小说网站
使用Python3开发
【Python】利用lxml爬取起点小说网小说
先写在前面，人生苦短，我用python。此文作为自己的一个小笔记，记录自己的爬虫的一些东西，此处为为爬取起点小说...

网友评论

蜂采

本文标题：python 爬取全本免费小说网的小说

本文链接：https://www.haomeiwen.com/subject/qmftdctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

蜂采

关于我们|服务条款|联系我们|python 爬取全本免费小说网的小说|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！