小说爬虫python

作者: 北冥神君 | 来源:发表于2017-12-18 13:08 被阅读84次

python 爬虫 --- 爬取笔趣阁小说
2017-12-31
python 爬虫练习（一）
3分钟带你了解世界第一语言Python 入门上手也这么简单！
5.3黑客成长日记——爬虫篇(1)
python各类爬虫案例，爬到你手软！（附代码）
python小说爬虫
小说爬虫python
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider

在线观看多费劲呀，不如爬下来看

小说网站地址：http://www.quanshuwang.com/

分析：

第一种方法：

首先随便打开一个小说章节详情页，比如莽荒记

发现这个详情页，居然包含了所有章节的url。

故第一种实现思路就是从这个页面找到所有章节的url，存为一个列表，然后批量去匹配小说内容下载小说。

第二种方法：

在第一个章节点开任意一章小说，对页面进行分析

发现这里有下一章的链接，

故方法二就是在当前页面找到下一章的链接，然后循环执行批量下载小说，只要拿到小说章节的url一切都好说。

第三种方法：

通过观察连续每一章的url：

小说地址：http://www.quanshuwang.com/book/44/44683/

章节规律：页面翻页规律

章节1:http://www.quanshuwang.com/book/51/51030/16813025.html

章节2:http://www.quanshuwang.com/book/51/51030/16813026.html

章节3:http://www.quanshuwang.com/book/51/51030/16813027.html

http://www.quanshuwang.com/book/44/44683/15379612.html

......

.......

最后一章的url：http://www.quanshuwang.com/book/51/51030/18021855.html

，，这网站居然没更新完本。。这就尴尬了，

不过我们还是能

发现规律

连续章节url

=http://www.quanshuwang.com/book/51/51030/168130+章节数.html

所以第三种方法只是简单的拼接url就ok 了。

总结经验：爬虫的实现方法有多种，主要还是看你实现这种爬虫的实现思路，通过几种方法来比较哪一种方法比较简单实用。

第二种方法的代码实现：

'''

小说地址：http://www.quanshuwang.com/book/51/51030

小说章节第一章：http://www.quanshuwang.com/book/51/51030/16813025.html

by:北冥

'''

importrequests#网络请求模块

importre#正则表达式模块

frombs4importBeautifulSoup#解析网页模块

importsys#防出错模块

defgetContent(content_url,i):

try:

i=i+1#循环调用直到下完为止，如果找不到下一章的url程序会报错。

header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}

res = requests.get(content_url,headers= header,timeout=10)#开始请求

res.encoding ='gbk'#设置编码

soup = BeautifulSoup(res.text,'html.parser')#解析页面html

title = soup.select('.jieqi_title')[0].text.lstrip('章节目录 ')#开始搜索章节

print(title)#终端打印章节

content = soup.select('#content')[0].text.lstrip('style5();').rstrip('style6();')#小说内容

both = title + content#章节+内容

next_url = soup.select('.next')[0]['href']#在当前页面搜索下一章

print(both,file= f)#写入文件

print(i)#终端打印章节

returngetContent(next_url,i)#反复调用函数

except:

print('下载完成啦', sys.exc_info()[0], sys.exc_info()[1])

#出错返回

#以下是调用过程

f =open("莽荒记.txt",'w+',encoding='utf-8')#保存在当前目录

i=0

getContent('http://www.quanshuwang.com/book/51/51030/16813025.html',i)#第一章的url传进去

f.close()

print('ok!')

以下是代码整体图，好看点

网友评论

Python爬虫分析

本文标题：小说爬虫python

本文链接：https://www.haomeiwen.com/subject/srtpwxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

小说爬虫python

在线观看多费劲呀，不如爬下来看

分析：

第一种方法：

故第一种实现思路就是从这个页面找到所有章节的url，存为一个列表，然后批量去匹配小说内容下载小说。

第二种方法：

故方法二就是在当前页面找到下一章的链接，然后循环执行批量下载小说，只要拿到小说章节的url一切都好说。

第三种方法：

相关文章

python 爬虫 --- 爬取笔趣阁小说

2017-12-31

python 爬虫练习（一）

3分钟带你了解世界第一语言Python 入门上手也这么简单！

5.3黑客成长日记——爬虫篇(1)

python各类爬虫案例，爬到你手软！（附代码）

python小说爬虫

小说爬虫python

Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序

Python网络爬虫（七）- 深度爬虫CrawlSpider

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫分析