促使我研究爬虫的契机很简单,也很直接:想把 http://meizhi.im 这个网站上所有的图片保存下来,想想都激动,绅士们都会懂的(*_*)
一直以来都觉得网络爬虫是个很好玩的东西,如果学会使用,那么无论是你想要的文字还是图片,就都能够清晰明了地展现在你眼前。所以我所理解的爬虫涵义就是获取网页上你想要的信息内容。
大家似乎都比较喜欢用 Python 来写爬虫代码,是因为它拥有比较强大的库,便于开发。无奈的是我不会这门语言,于是就尝试使用 Node.js 来进行网页数据的抓取以及分析。
其实 Node.js 也有很强大的原生及第三方模块的支持,所谓代码靠抄(邪教),这里就毫不客气地直接使用已经造好的轮子了:《使用 eventproxy 控制并发》。以此为基础,我们所需要做的工作无非就是将各个帖子中的图片筛选出来并下载到本地。
直接扔 Github 链接:https://github.com/saintwinkle/meizhi-crawler 。
其实就网站现有的帖子数量上来讲,从效率角度出发,并发特性没有得到比较好的利用,就算一个个帖子去抓取,速度上最终并不会相差太多。
截至此文发表时间,该站约有 1500 张图片,仅供参考,期待更多。以上。
网友评论