美文网首页数据蛙数据分析每周作业
学习爬取社群管理作业信息——数据分析实战1

学习爬取社群管理作业信息——数据分析实战1

作者: Datacat | 来源:发表于2018-12-23 16:19 被阅读18次

摘要:抓住2018年的小尾巴,有幸和一群热情的小伙伴们一起加入了疯狂数据分析小组,通过有计划的输入,每周总结一篇数据类文章,分别投稿到疯狂数据分析专题,并坚持一年时间,否则退出小组,我可不愿放弃这么好的机会和平台。我想努力完善自己。让自己从0到1成长。

目的:首先跟着组里的前辈,也即发起人——“凡人求索”。学习爬虫技能,即爬取大家的交作业情况,因为一个一个的去数太麻烦。然后每周做个时间筛选就可以了。除了学习技能还可以清楚的看到有多少人在一起努力,他们都是做了哪些事情。过一段时间,再来看下,还有哪些人在坚持,坚持下来的同学们身上发生了哪些变化。2019新的一年,马上要到了,大家相互见证成长。

一、学习路线

·爬取目标

·获取索引页、详情页内容

·解析索引页

·Ajax异步加载

·获取并解析详情页内容

·结果存入Mysql

1、爬取目标

对于本小组成员的作业情况,需要得到交作业同学的简书用户名文章标题交作业时间所写内容的字数(防止为了交作业而交作业)。

2、获取索引页内容

·学习了从索引页可以得到如下信息:简书用户名文章标题和详情页链接信息。如下图:


·学习了从详情页得到的信息:交作业时间所写内容的字数。如下图:

·看下索引页的地址链接

3、解析索引页,在python notebook上运行的

关于requests库的使用,请参考这里Request Quickstart

关于BeautifulSoup解析库的使用,请参考[Beautiful Soup Documentation]

(https://www.crummy.com/software/BeautifulSoup/bs4/doc/),大佬凡人求索让我们暂时掌握住find_all()get()content方法便可。

其实这里放出来的是全部的结果,但是显示只有10条,但是现在已经10+篇文章了啊。这是为什么呢?

4、Ajax异步加载

在Apple自带浏览器点击右键,出来的选项卡里没有检查这项,会弹出开发者工具。所以在谷歌才能打开,此时在Elements选项卡中便会观察到网页的源代码,右侧便是节点的样式。

不过这不是我们想要寻找的内容。切换到Network选项卡,随后重新刷新页面,可以发现这里出现了非常多的条目,这里其实就是在页面加载过程中浏览器与服务器之间发送请求和接收响应的所有记录。

学习到它的通俗解释:打开某个网页时,是不能看到所有的结果,但是鼠标下拉时,网页又多了一部分内容,在这个过程之中每次只加载一部分,并没有重新加载整个页面内容的这种情况,就是Ajax异步加载,刚刚我们只得到一部分结果,就是因为这个。神奇,学到了。

5、由于我装包一直有问题,pymysql包一直装不上,爬取学习就只进行在此。之后再在后面补充爬虫知识。

相关文章

网友评论

    本文标题:学习爬取社群管理作业信息——数据分析实战1

    本文链接:https://www.haomeiwen.com/subject/wxuqkqtx.html