美文网首页橙子学院码字岛
一次爬取数据的尝试

一次爬取数据的尝试

作者: 林中泉 | 来源:发表于2017-06-18 16:15 被阅读0次

大概是因为mayu解散了fc,基本没有复出的可能性,多余的爱无处发泄:)突然想到可以抓取她博客的数据进行一些粗浅的分析,于是就尝试了下,虽然经过几次尝试都不能算成功(主要是没搞定翻页的问题),但整个过程还是值得记录一下。
一开始想到的是利用为知笔记中自带的博客下载器,以前曾经用它来下载过新浪微博,效果还可以,所以先想利用它尝试一下。


2017-06-18_154229.png

输入地址点击分析,它会自动填写名称和RSS地址,但完全没用,无法下载ameba博客。
然后想起IDM也有抓取整站的功能。但第一次用的时候,没有配置好抓取方案,导致它找到了很多不相干的东西,反而需要的博客正文下载一直无法正常工作。
这时,想起我有RStudio,R语言也比较常用来抓取网站,于是就上网搜索有没有这方面的资源,很快找到了Rvert包,并跟随教材,先用了一个网页来测试,一切顺利地抓取到了正文内容。但是因为博客数量很多,我需要它根据目录页中的链接来一个个抓取,并且自动加载下一页目录。而这个R包貌似满足不了我的需求。
在垂头丧气的时候,想起IDM的整站抓取功能,还是决定再试一次。这次我仔细自定义了抓取方案,确定了只向下钻取一层,并只下载html文件。改好以后,IDM查找资源的速度果然快多了,很快我就下载好了51篇博客,但它也有一个问题,就是前几个目录页会重复,而且无法直接下载指定标题的文件。ameba博客的正文url是“entry-随机数.html”,它下载下来的文件名称不是博文标题,而是这个url,所以看上去完全无规律。最后由于时间关系,没有继续深入下去了的。
第二天,不甘心没有扒完mayu的博客,又再尝试了下。
昨天用r语言没办法搞定翻页,于是问了程序员朋友,什么工具处理这个问题比较有效,他回复说是python. 正好之前(已经忘了是什么原因)装过python,于是正好可以拿来用。
在网上搜了下,python爬虫的包主要是requests,但在Google它如何处理翻页的时候,有人提到了八爪鱼采集器,说是它比较简单好用。我的重点还是在于mayu的博客内容本身,如果能有好用的工具可以加快速度的话,我更倾向于使用现成的工具。
下载了八爪鱼,它的功能对我来说比较全面,而且引导新手做的比较好,看一遍教程就会用了。只是最后264篇文章,花了近5个小时才完成下载,而且下载的数据还不全(264/287),这点比较让人失望。
看来还是得自己动手才能丰衣足食啊,在硬盘里扒拉了下,发现之前下载过一本python网络数据采集(由此可见有使用场景这点多么重要,要不就永远只是“觉得应该学”的东西,而不是“我一定要用”的东西,就没有内在驱动力了)的电子书,看目录由浅入深讲的很完备,又符合我的需求,决定还是从头开始学习,自己动手打造一个网络爬虫,达到的效果是这样的:1.利用博客的目录页,自动下载好所有博文,包括正文及相关数据(发布时间、点赞数、引用数等);2.单独有个文件夹存放博客中的所有图片;3.以后定时监控博客,有新更新自动提醒,并且利用深度学习技术监测图片里有没有她本人的自拍,如果有在提醒中着重提示。
看上去还是挺困难的,但相信有爱:)和努力,就能办到。

相关文章

网友评论

    本文标题:一次爬取数据的尝试

    本文链接:https://www.haomeiwen.com/subject/tdaiqxtx.html