美文网首页
简单的Python网络爬虫

简单的Python网络爬虫

作者: 没时没分每秒 | 来源:发表于2019-01-04 02:39 被阅读0次

    认识爬虫:

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

    尝试爬取一个小说的章节:

    1.首先,我们需要根据URL获取网页:

    我们选择的环境为Anaconda3-5.2.0-Windows-x86_64,即Anaconda的Windows64位版本。


    通过上述代码我们可以获得《明武天下》这本小说的章节的信息以及大量我们不需要的内容。

    2.找出想要的信息,并进行数据清洗:

    通过浏览器的查看功能(轻击鼠标右键可看到选项),可以知道章节是被包含在<dl></dl>之中。这时候我们可以使用'<dl.*?>(.*?)</dl>'来达到我们的目的。


    通过上述表达式我们已经可以把我们想要的章节名拿出来了。


    接下来就要进行数据清洗来达成我们的最终目的了:


    3.总结

    这只是一个简单的爬取小说章节的小程序,如果有喜欢python的小伙伴可以通过深入学习来实现更多的功能。

    相关文章

      网友评论

          本文标题:简单的Python网络爬虫

          本文链接:https://www.haomeiwen.com/subject/lcnalqtx.html