Python爬虫实战记录，简书文章的采集与存储

作者: 48e0a32026ae | 来源:发表于2018-11-07 15:05 被阅读10次

Python爬虫实战记录，简书文章的采集与存储
Python网络数据采集之图像识别与文字处理
数据采集，图像数据处理，Python分布式爬虫，Mahout，T
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
Python网络爬虫实战之十一：Scrapy爬虫框架入门介绍
Python网络爬虫实战之十三：Scrapy爬取名侦探柯南漫画集
Python网络爬虫实战之六：静态网页爬取案例实战

本文内容将与大家一起从简书的文章页面抓取文章标题、作者、发布时间以及正文内容，并且将抓取到的这些信息存入Excel表格中。本文对简书文章的抓取仅为Python的学习交流，尊重作者著作权，不对抓取到的文章做其他用途。本文使用Chrome浏览器对页面中需要抓取的内容进行分析。

学习Python中有不明白推荐加入交流群

号：516107834

群里有志同道合的小伙伴，互帮互助，

群里有不错的学习教程！

首先我们从简书首页点开一篇文章。现在我们来从页面中提取文章标题信息。按下F12进入开发者模式，即下图中下方区域。

点击图中第1处红框的按钮，此时可以通过鼠标点击页面中的元素来定位到对应的HTML代码。再按下图中第2处红框即文中的标题，此时下方区域将定位到我们选中的标题的HTML代码，即图中第3处红框的HTML代码：

这是一个H1标签，可以从中看到我们需要的文章标题内容，我们可以通过定位class属性值为title的H1标签来找到这个标签并从中提取出文章标题。

用同样的方法来找到作者和发布时间这两个元素的HTML代码：

需要特别说明的，文中作者信息所在的是一个A标签，即第三行代码所示，此处的A标签并没有诸如class、name、id之类可以用来定位到这个标签的特殊属性，因此我们需要往上寻找，直到找到存在可以用来定位的特殊属性的父标签。例如这个作者信息所在的A标签的父标签是一个SPAN标签，存在一个值为name的class属性，因此我们可以通过定位到这个SPAN标签来提取作者信息。

发布时间所在的是一个class属性值为publish-time的SPAN标签，我们可以通过定位到这个SPAN标签来提取发布时间信息。

对于文章正文HTML代码的提取就有一些技巧了，按照上面的方法，如果直接用鼠标点击正文中的某一段内容时，定位到的只是这一段内容的P标签，而我们需要提取的是所有正文内容。这时我们可以点击段落之间的空白处，这样就可以定位到这个段落所在的DIV标签，而这个DIV标签包含我们需要的所有正文内容，如下图所示：