网络爬虫初探

作者: 天然傲娇 | 来源:发表于2014-12-20 23:35 被阅读204次

网络爬虫初探
1-基本概念
2018-01-11 Python网络爬虫与信息提取网络爬虫
[Python网络爬虫]第1章网络爬虫入门
爬虫初探
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
Python网络爬虫实战之十一：Scrapy爬虫框架入门介绍

促使我研究爬虫的契机很简单，也很直接：想把 http://meizhi.im 这个网站上所有的图片保存下来，想想都激动，绅士们都会懂的(*^_*)

一直以来都觉得网络爬虫是个很好玩的东西，如果学会使用，那么无论是你想要的文字还是图片，就都能够清晰明了地展现在你眼前。所以我所理解的爬虫涵义就是获取网页上你想要的信息内容。
大家似乎都比较喜欢用 Python 来写爬虫代码，是因为它拥有比较强大的库，便于开发。无奈的是我不会这门语言，于是就尝试使用 Node.js 来进行网页数据的抓取以及分析。

其实 Node.js 也有很强大的原生及第三方模块的支持，所谓代码靠抄（邪教），这里就毫不客气地直接使用已经造好的轮子了：《使用 eventproxy 控制并发》。以此为基础，我们所需要做的工作无非就是将各个帖子中的图片筛选出来并下载到本地。

直接扔 Github 链接：https://github.com/saintwinkle/meizhi-crawler 。
其实就网站现有的帖子数量上来讲，从效率角度出发，并发特性没有得到比较好的利用，就算一个个帖子去抓取，速度上最终并不会相差太多。

截至此文发表时间，该站约有 1500 张图片，仅供参考，期待更多。以上。

网友评论

本文标题：网络爬虫初探

本文链接：https://www.haomeiwen.com/subject/whtatttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

网络爬虫初探

相关文章