一次爬取数据的尝试

作者: 林中泉 | 来源:发表于2017-06-18 16:15 被阅读0次

一次爬取数据的尝试
scrapy中间件实现增量爬虫
6.爬取拉勾网职位信息
爬虫入门01-获取网络数据的原理作业
Python:爬虫（2019-1-15）
Python学习笔记7——爬取大规模数据
python第四天（一）BeautifulSoup爬虫
爬虫入门01作业
听说《西虹市首富》是最值得一看的喜剧电影！Python分析10亿
day 01 用正则爬取电影

大概是因为mayu解散了fc，基本没有复出的可能性，多余的爱无处发泄：）突然想到可以抓取她博客的数据进行一些粗浅的分析，于是就尝试了下，虽然经过几次尝试都不能算成功（主要是没搞定翻页的问题），但整个过程还是值得记录一下。
一开始想到的是利用为知笔记中自带的博客下载器，以前曾经用它来下载过新浪微博，效果还可以，所以先想利用它尝试一下。

2017-06-18_154229.png

输入地址点击分析，它会自动填写名称和RSS地址，但完全没用，无法下载ameba博客。
然后想起IDM也有抓取整站的功能。但第一次用的时候，没有配置好抓取方案，导致它找到了很多不相干的东西，反而需要的博客正文下载一直无法正常工作。
这时，想起我有RStudio，R语言也比较常用来抓取网站，于是就上网搜索有没有这方面的资源，很快找到了Rvert包，并跟随教材，先用了一个网页来测试，一切顺利地抓取到了正文内容。但是因为博客数量很多，我需要它根据目录页中的链接来一个个抓取，并且自动加载下一页目录。而这个R包貌似满足不了我的需求。
在垂头丧气的时候，想起IDM的整站抓取功能，还是决定再试一次。这次我仔细自定义了抓取方案，确定了只向下钻取一层，并只下载html文件。改好以后，IDM查找资源的速度果然快多了，很快我就下载好了51篇博客，但它也有一个问题，就是前几个目录页会重复，而且无法直接下载指定标题的文件。ameba博客的正文url是“entry-随机数.html”，它下载下来的文件名称不是博文标题，而是这个url，所以看上去完全无规律。最后由于时间关系，没有继续深入下去了的。
第二天，不甘心没有扒完mayu的博客，又再尝试了下。
昨天用r语言没办法搞定翻页，于是问了程序员朋友，什么工具处理这个问题比较有效，他回复说是python. 正好之前（已经忘了是什么原因）装过python，于是正好可以拿来用。
在网上搜了下，python爬虫的包主要是requests，但在Google它如何处理翻页的时候，有人提到了八爪鱼采集器，说是它比较简单好用。我的重点还是在于mayu的博客内容本身，如果能有好用的工具可以加快速度的话，我更倾向于使用现成的工具。
下载了八爪鱼，它的功能对我来说比较全面，而且引导新手做的比较好，看一遍教程就会用了。只是最后264篇文章，花了近5个小时才完成下载，而且下载的数据还不全（264/287），这点比较让人失望。
看来还是得自己动手才能丰衣足食啊，在硬盘里扒拉了下，发现之前下载过一本python网络数据采集（由此可见有使用场景这点多么重要，要不就永远只是“觉得应该学”的东西，而不是“我一定要用”的东西，就没有内在驱动力了）的电子书，看目录由浅入深讲的很完备，又符合我的需求，决定还是从头开始学习，自己动手打造一个网络爬虫，达到的效果是这样的：1.利用博客的目录页，自动下载好所有博文，包括正文及相关数据（发布时间、点赞数、引用数等）；2.单独有个文件夹存放博客中的所有图片；3.以后定时监控博客，有新更新自动提醒，并且利用深度学习技术监测图片里有没有她本人的自拍，如果有在提醒中着重提示。
看上去还是挺困难的，但相信有爱：）和努力，就能办到。