学习爬取社群管理作业信息——数据分析实战1

学习爬取社群管理作业信息——数据分析实战1

作者: Datacat | 来源:发表于2018-12-23 16:19 被阅读18次

学习爬取社群管理作业信息——数据分析实战1
Python 3爬虫、数据清洗与可视化实
Boss 直聘数据岗招聘信息爬取（一）
他爬取了B站所有番剧信息，发现了这些……
三阶段day26-爬虫介绍
Python爬虫 --- Scrapy爬取黄页88网企业信息
Python爬虫 --- Scrapy爬取IT桔子网
数据团Python_10.5 网页数据爬虫实战01
第四阶段爬虫整理
Python 实战项目

摘要：抓住2018年的小尾巴，有幸和一群热情的小伙伴们一起加入了疯狂数据分析小组，通过有计划的输入，每周总结一篇数据类文章，分别投稿到疯狂数据分析专题，并坚持一年时间，否则退出小组，我可不愿放弃这么好的机会和平台。我想努力完善自己。让自己从0到1成长。

目的：首先跟着组里的前辈，也即发起人——“凡人求索”。学习爬虫技能，即爬取大家的交作业情况，因为一个一个的去数太麻烦。然后每周做个时间筛选就可以了。除了学习技能还可以清楚的看到有多少人在一起努力，他们都是做了哪些事情。过一段时间，再来看下，还有哪些人在坚持，坚持下来的同学们身上发生了哪些变化。2019新的一年，马上要到了，大家相互见证成长。

一、学习路线

·爬取目标

·获取索引页、详情页内容

·解析索引页

·Ajax异步加载

·获取并解析详情页内容

·结果存入Mysql

1、爬取目标

对于本小组成员的作业情况，需要得到交作业同学的简书用户名、文章标题、交作业时间、所写内容的字数(防止为了交作业而交作业)。

2、获取索引页内容

·学习了从索引页可以得到如下信息：简书用户名、文章标题和详情页链接信息。如下图：

·学习了从详情页得到的信息：交作业时间、所写内容的字数。如下图：

·看下索引页的地址链接

3、解析索引页，在python notebook上运行的

关于requests库的使用，请参考这里Request Quickstart。

关于BeautifulSoup解析库的使用，请参考[Beautiful Soup Documentation]

(https://www.crummy.com/software/BeautifulSoup/bs4/doc/)，大佬凡人求索让我们暂时掌握住find_all()、get()、content方法便可。

其实这里放出来的是全部的结果，但是显示只有10条，但是现在已经10+篇文章了啊。这是为什么呢？

4、Ajax异步加载

在Apple自带浏览器点击右键，出来的选项卡里没有检查这项，会弹出开发者工具。所以在谷歌才能打开，此时在Elements选项卡中便会观察到网页的源代码，右侧便是节点的样式。

不过这不是我们想要寻找的内容。切换到Network选项卡，随后重新刷新页面，可以发现这里出现了非常多的条目，这里其实就是在页面加载过程中浏览器与服务器之间发送请求和接收响应的所有记录。

学习到它的通俗解释：打开某个网页时，是不能看到所有的结果，但是鼠标下拉时，网页又多了一部分内容，在这个过程之中每次只加载一部分，并没有重新加载整个页面内容的这种情况，就是Ajax异步加载，刚刚我们只得到一部分结果，就是因为这个。神奇，学到了。

5、由于我装包一直有问题，pymysql包一直装不上，爬取学习就只进行在此。之后再在后面补充爬虫知识。

相关文章

学习爬取社群管理作业信息——数据分析实战1
摘要：抓住2018年的小尾巴，有幸和一群热情的小伙伴们一起加入了疯狂数据分析小组，通过有计划的输入，每周总结一篇数...
Python 3爬虫、数据清洗与可视化实
《Python 3爬虫、数据清洗与可视化实战》本书是一本通过实战教初学者学习爬取数据、清洗和组织数据进行分析和可视...
Boss 直聘数据岗招聘信息爬取（一）
项目背景由于本人在重庆从事数据分析工作，故这次先爬取Boss直聘的本地区数据分析岗信息，并进行分析爬取思路由...
他爬取了B站所有番剧信息，发现了这些……
本文来自「楼+ 之数据分析与挖掘实战」第 4 期学员 —— Yueyec 的作业。他爬取了B站上所有的番剧信息，...
三阶段day26-爬虫介绍
爬取猫眼网站的电影信息爬取页面信息的基本思路是： 1、获取页面信息2、解析页面信息并匹配自己想要爬取的数据3、组...
Python爬虫 --- Scrapy爬取黄页88网企业信息
目标：用scrapy爬取黄页88网站所有企业信息，并把爬取的所有信息存入到mysql数据库中。目标分析：通过...
Python爬虫 --- Scrapy爬取IT桔子网
目标：此次爬取主要是针对IT桔子网的事件信息模块，然后把爬取的数据存储到mysql数据库中。目标分析：通过浏...
数据团Python_10.5 网页数据爬虫实战01
10.5 网页数据爬虫实战01 作业1 爬取一条腾讯新闻的header内容，存入txt 包含网页链接包含titl...
第四阶段爬虫整理
爬虫概述爬虫案例案例1：爬取百度贴吧数据分析：GET方式爬取数据抓包：设计：实现：案例2：抓妹子图分析：...
Python 实战项目
web机器人 web实战博客BBS论坛系统成绩管理系统新闻系统爬取知乎爬取豆瓣爬取京东爬取新浪微博 ...

网友评论

数据蛙数据分析每周作业

本文标题：学习爬取社群管理作业信息——数据分析实战1

本文链接：https://www.haomeiwen.com/subject/wxuqkqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

数据蛙数据分析每周作业

热点阅读

数据蛙数据分析每周作业

关于我们|服务条款|联系我们|学习爬取社群管理作业信息——数据分析实战1|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！