人人都能学会的数据爬虫

作者: 土匪刘小姐 | 来源:发表于2017-08-14 16:31 被阅读238次

网络蜘蛛侠，要多酷有多酷

1.准备：谷歌浏览器、Webscraper.

2.百度将Webscraper安装到谷歌浏览器上面。

3.打开需要爬虫的网页，开始爬虫。

人生中第一只爬虫，刨了偶像在知乎回答的问题标题。

总结一下我的做法：

第一课业

最开始，试着爬虫，然后不知道id写什么，因为前面没怎么听到是自由设置题目的，所以直接看了视频答疑，才发现，可以自由设置标题，也就是视频中的“title”，视频重复看了几遍，因为自己中间要么是漏掉mutiple，要么只抓到5条标题。错误很多啊，咋办呢？还不是只有挨着来看哪个环节出问题了，于是乎一步一步跟着视频来，欸！对了！然后，只爬出了55条。下图1

不对呀，好像是没有完整呀？咋整呢？原来呀，是时间设置太短，反应不过来（暂且我就这么通俗的理解吧），所以呢，更改了时间，为2000，然后就激动地等待………………

此处是漫长等待分割线（网速不给力）

……………………………………………………………………………………………………………………………………

cool!得到130条数据！如下图2。

所以

复盘整个爬虫顺利的流程是：

1.打开目标网址，右键选择【检查】，开始召唤得力大侠黑蜘蛛朋友【webscraper】；

2.开始建立一个任务，新建站点【Creat new sitemap】，自定义输入站点名称，输入当前网址；

3.新建一个选择器【Add new selector】，这相当于设定一个爬虫规则，让黑蜘蛛知道爬哪些元素；

4. 点击【select】去抓取目标元素，这里是偶像回答问题的标题；点击第一个标题，然后点击第二个标题，相当于就定位好了你想要选择的元素，鼠标拖动页面，查看，这时候这一同类型的元素应该都选择好了。显示为红色。（未选择的为绿色），然后点击【Done selecting!】

5. 输入ID名称，勾选【Multiple】.这里的ID我最开始还不懂，其实就是你当前要爬的内容，定一个名称，比如这里是标题，视频教程里就输入的是“title”，然后点击【Element preview】，核对是否选中所有要爬的内容，也可进行后几页内容的查看。

6. 最后保存选择器【save 】，然后页面就设置完毕，然后开始抓取，在【sitemap(a-laohuang这个是你最初创建站点的名字)】下面，点击【Scrap】,等待蜘蛛大侠工作完毕。

然后数据就出来啦！这个是单页爬取的内容，那么，还有分页呢，也就是说一个内容太多，不止一页内容，我们需要所有的数据咋整？

1.这时候，就需要编辑分页抓取啦。打开第二页或者第三页，点击【Sitemap】——【Edit metadata】,然后将网页网址复制下来粘贴到网址区域，网址末端显示的是page=2，这时候我们把数字2删除，然后输入页面区域：“[1-7]”因为总共有7页嘛。点击【保存】，开始抓取【scrap】

2. 导出格式，打开查看。【Export data as CSV】

3.大功告成！！！！！！！不过，如果数据很少，这代表抓取的过程中，网页内容还没有生成，我们访问速度快了。所以呢，就需要重新把访问时间加长，把选择器中的【delay】输入为2000，还有就是在【scrap】种直接把默认的500改成2000，或者3000（也就是2秒3秒，也可以设置更大数字，比如5000）

4. 最后点击【Star scraping】开启爬虫。最后结果应该就是完完整整的数据啦~ 要注意那个时间的设置，比如3000也就是，每打开一个分页，等待3秒后才让蜘蛛大侠去爬数据。这下真正的大功告成，当当当当！

结果：

通过爬虫学习，对数据收集有一个进阶提升，干活儿（需要收集想要的数据的时候）效率飞速提升。

进阶操作：

【亲子活动爬虫】794条

目的：抓取所有亲子游下相关数据，得出结果，并进行相关简单分析。

爬取数据需要解决的问题：

1.总节目多少？

2.展览类型多少？

3.非常受欢迎的活动是什么性质的？

……（其他的就是excel技能了，本人excel技能有点烂）

抓取时间：8月5日09：13分

抓取步骤：

1.建立元素集，选择scrolldown,选择总区域

2.分辨建立子元素选择器，name,type,price,paticipants

3.其中报名人数不好选择，鼠标移动到报名人数，右键选择检查，用contrl+F,查找类型，最后发现是i.joincnt 复制到选择其中，然后 done selecting

4.将数据整理，没找到快速填充，查了半天也没弄清楚，哈哈，偷懒了。用的分隔符，复制“|”。然后将数据分列处理。

抓取结果及分析：

1.总节目共794条。（这里可以对比同类别城市的数据结果，可以得到上海与北京，广州，深圳的对比）

2.展览类型共65条（选择某一列数据，然后点击数据-筛选-找到展览-回车）

3.价格最高：

最高：大师出名级别的音乐视听演出，高过其他的4-5倍不等

其次：是小朋友参与性强的，比如俱乐部，比如户外活动。

4.受欢迎程度：

最欢迎TOP1：科技类活动《畅玩2000平＋14个顶尖太空科技体验项目＋VR穿越时空》3305销量

其次：马戏魔幻类《欢乐马戏》小朋友最爱！传递欢乐与幽默！2571销量

还有票量极少的，分析方法同上，比如票量少的如何优化，这些就是具体到策略执行层了。而我们日常分析一个数据，除了看人家的数据结果，以及分析结果之外。

最重要的就是对比到自己做事。比如如果我是总策划，我应该从哪些方面入手优化这些活动，从而提升销量。比如我可以分析其他城市同类活动数据，寻找维度，分析指标。提出优化策略。比如活动标题，是刺激大家点击查看详情的重点，如何优化等。

最后深深有一种茅塞顿开的感触：

工具解放你的四肢，好比如各种笔记软件解放了你的大脑。

又掌握一门技能，感觉真好。

网友评论

Web Scraper

本文标题：人人都能学会的数据爬虫

本文链接：https://www.haomeiwen.com/subject/icburxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

人人都能学会的数据爬虫

所以

复盘整个爬虫顺利的流程是：

结果：

进阶操作：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Web Scraper