nodejs - 爬虫

作者: 小生王浩 | 来源:发表于2020-05-09 09:35 被阅读0次

继续上一篇写下爬虫的实现，网上找了一个爬虫的文章，然后从里面找了一个网址，https://www.lanvshen.com/，我们就从这个网址里面拉出来里面的图片和里面的图片里的信息

然后我们要写爬虫的话，就需要把所需要的组件弄来，里面需要cheerio,

我们可以去https://www.npmjs.com/package/cheerio里面查看怎么使用，

其实用法很简单，就和jquery一样，只是用之前要把$声明下，代码：

这里面有相应的注释，所以在这里就不写了，主要就是请求页面，然后查找到相应元素里面的信息保存或进行其他操作

这个是我获取的，页面里面有些是href跳转到一个模特详情里面，有些是模特列表，这里我没有区分，所以都弄了这些，数据如下：

差不多有一点点吧，因为这里面有些图片点击之后的href也是一个列表，而不是写真图片，所以如果想要弄的仔细点，可以继续循环着去获取

简单来说这样的一个获取数据的爬虫就完成了，因为我这里都是异步的，当然，也可以像之前别人写的那个一样，直接把里面图片保存下来，保存起来，因为是异步的，所以，保存需要一定的时间，所以现在我这里就没写了，我这里获取的图片url都有了，保存应该也就不用我写了吧，简单的

注意：此种行为好像是违法的，所以，如果想要用于商业或其他关于钱的地方，最好是不要弄，要不然被告了就不好了

好了，今天这里的爬虫就写到这里了，感兴趣的童鞋，可以自己找个网站试试，多学一样东西，多一份技能

网友评论

本文标题：nodejs - 爬虫

本文链接：https://www.haomeiwen.com/subject/pvehnhtx.html

nodejs - 爬虫