羞羞的node爬虫

羞羞的node爬虫

作者: 芝士君 | 来源:发表于2017-06-01 14:47 被阅读363次

羞羞的node爬虫
bilibili壁纸站-node爬虫
node爬虫之路（一）
node爬虫快速入门
node入门场景之——爬虫
node 爬虫
node爬虫
Node爬虫
node爬虫
node 爬虫

原文博客：羞羞的node爬虫

前言

学了一阵子node，除了用 express 写东西，就没怎么做过东西
突然就想写个爬虫来玩一玩，而且还是爬一些羞羞的东西

使用模块

SuperAgent 是个 http 方面的库，可以发起 get 或 post 请求。
cheerio 大家可以理解成一个 Node.js 版的 jquery，用来从网页中以 css selector 取数据，使用方式跟 jquery 一样一样的
fs 用于读写文件的一个依赖包
superagent-logger 用来打印http请求信息

流程

首先，我们要爬取得网址是： http://www.hacg.wiki/wp/anime.html
其次，我们要爬取得目标：以以下格式保存在 txt 中

再其次，分析我们要爬取的内容分布：打开控制台

title, id, tags 如下
爬取地址是： "http://www.hacg.wiki/wp/anime.html/page/" + i

time, seed 如下
爬取地址是： 'http://www.hacg.wiki/wp/' + id + '.html'

再再其次，我们可以从上面看出，要爬 time 和 seed 前提是把前边的 id 爬取到，
因此要先爬取 id ，再利用 id 拼凑 seed 所在的 url

最后，就可以来愉快地爬取了

知识点

还是有复习到一些知识
具体superagent,cheerio看上面我提供的 api模块文档链接

利用promise管理异步函数

当我第一次按正常同步思维用 superagent 先爬取 id 所在 url，
再调用下面使用 superagent 的函数获取 seed时，
我发现获取的 seed 一直是空的。
后来才意识到这是异步函数，不会按顺序进行。
因此我使用了 ES6 的 promise 控制先执行爬取 id
爬取完 id 再爬取 seed

用正则表达式获取seed

如果你有逛过该网站，你会发现他的 seed 是放得毫无规律的，
并不是存放在一个固定的 x标签中，
因此我的做法是把存放 seed 的整一个 $('.entry-content') 获取到，
再利用正则表达式整块文本进行匹配获取

坑点

神坑啊神坑，小问题费了我好长时间

磁力链接的大坑

一开始我以为磁力链接这玩意长度为 40 ，都是大写字母 + 数字的组合。
后来在爬取不到 seed ,让我一度怀疑人生的时候
巧合下，发现磁力链接有小写字母，有 32长度的，有 42长度的。。
我一直以为是重定向问题，哎，花了好几个钟在这上面纠结
不过也让我小小得重新了解了下 http

运行效果

结果爬取行数有： 2700行、
爬取seed数： 450

代码地址

github: llss-crawler
具体注释都在代码里，有需要的小伙伴可以去 github 下下来，跑一下
感受有趣的爬虫，希望不吝惜地给个star😃

结语

第一次写爬虫，感觉很有趣，一个很自动化，一种互联网啥都 get 得到的感觉
😅（纯洁）

相关文章

羞羞的node爬虫
原文博客：羞羞的node爬虫前言学了一阵子node，除了用 express 写东西，就没怎么做过东西突然就想...
bilibili壁纸站-node爬虫
前言之前初学node的时候，有用爬虫爬过一些磁力链接详情见羞羞的node爬虫但是没有并发，没有代理，那时也对异步...
node爬虫之路（一）
最近对爬虫很感兴趣，我们node.js也是可以写爬虫。所以写一个node爬虫系列，记录我的爬虫之路，感兴趣的同学可...
node爬虫快速入门
node爬虫初入前端，刚刚接触node，对于耳闻已久的node爬虫非常神往，所以有了这篇文章，项目代码在文章末尾...
node入门场景之——爬虫
边做边学效率更高，爬虫是node的适用场景之一，关于爬虫的另一篇文章node爬虫进阶之——登录为了验证“经验总结、...
node 爬虫
clawer.js
node爬虫
node爬虫用到的第三方模块 Cheerio 服务端的jQueryhttps://segmentfault.c...
Node爬虫
使用cheerio爬虫模块抓取页面后获取元素信息跟jQuery基本一样
node爬虫
/** 教程：https://blog.csdn.net/Qc1998/article/details/83154...
node 爬虫

网友评论

郭小弦:大佬，我不会爬虫。我用的‘八爪鱼’抓取琉璃神社的信息，关键是我提取不出来磁力链接，正则表达式不知道怎么写？因为，没有磁力车头。只有，后面40个字母+数字。
芝士君:抱歉，好久没上简书，刚看到。
然后，我没用过八爪鱼
我母鸡你的八爪鱼是个啥

本文标题：羞羞的node爬虫

本文链接：https://www.haomeiwen.com/subject/ushefxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

Node.js

爬虫专题

关于我们|服务条款|联系我们|羞羞的node爬虫|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！