认识爬虫:
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
尝试爬取一个小说的章节:
1.首先,我们需要根据URL获取网页:
我们选择的环境为Anaconda3-5.2.0-Windows-x86_64,即Anaconda的Windows64位版本。
通过上述代码我们可以获得《明武天下》这本小说的章节的信息以及大量我们不需要的内容。
2.找出想要的信息,并进行数据清洗:
通过浏览器的查看功能(轻击鼠标右键可看到选项),可以知道章节是被包含在<dl></dl>之中。这时候我们可以使用'<dl.*?>(.*?)</dl>'来达到我们的目的。
通过上述表达式我们已经可以把我们想要的章节名拿出来了。
接下来就要进行数据清洗来达成我们的最终目的了:
3.总结
这只是一个简单的爬取小说章节的小程序,如果有喜欢python的小伙伴可以通过深入学习来实现更多的功能。
网友评论