简单的Python网络爬虫

作者: 没时没分每秒 | 来源:发表于2019-01-04 02:39 被阅读0次

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

我们选择的环境为Anaconda3-5.2.0-Windows-x86_64，即Anaconda的Windows64位版本。

通过上述代码我们可以获得《明武天下》这本小说的章节的信息以及大量我们不需要的内容。

通过浏览器的查看功能（轻击鼠标右键可看到选项），可以知道章节是被包含在<dl></dl>之中。这时候我们可以使用'<dl.*?>(.*?)</dl>'来达到我们的目的。

通过上述表达式我们已经可以把我们想要的章节名拿出来了。

接下来就要进行数据清洗来达成我们的最终目的了：

这只是一个简单的爬取小说章节的小程序，如果有喜欢python的小伙伴可以通过深入学习来实现更多的功能。

网友评论

本文标题：简单的Python网络爬虫

本文链接：https://www.haomeiwen.com/subject/lcnalqtx.html

简单的Python网络爬虫