nodejs - 爬虫

作者: 小生王浩 | 来源:发表于2020-05-09 09:35 被阅读0次

    继续上一篇写下爬虫的实现,网上找了一个爬虫的文章,然后从里面找了一个网址,https://www.lanvshen.com/,我们就从这个网址里面拉出来里面的图片和里面的图片里的信息

    然后我们要写爬虫的话,就需要把所需要的组件弄来,里面需要cheerio,

    我们可以去https://www.npmjs.com/package/cheerio里面查看怎么使用,

    其实用法很简单,就和jquery一样,只是用之前要把$声明下,代码:

    这里面有相应的注释,所以在这里就不写了,主要就是请求页面,然后查找到相应元素里面的信息保存或进行其他操作

        这个是我获取的,页面里面有些是href跳转到一个模特详情里面,有些是模特列表,这里我没有区分,所以都弄了这些,数据如下:

        差不多有一点点吧,因为这里面有些图片点击之后的href也是一个列表,而不是写真图片,所以如果想要弄的仔细点,可以继续循环着去获取

        简单来说这样的一个获取数据的爬虫就完成了,因为我这里都是异步的,当然,也可以像之前别人写的那个一样,直接把里面图片保存下来,保存起来,因为是异步的,所以,保存需要一定的时间,所以现在我这里就没写了,我这里获取的图片url都有了,保存应该也就不用我写了吧,简单的

    注意:此种行为好像是违法的,所以,如果想要用于商业或其他关于钱的地方,最好是不要弄,要不然被告了就不好了

        好了,今天这里的爬虫就写到这里了,感兴趣的童鞋,可以自己找个网站试试,多学一样东西,多一份技能

    相关文章

      网友评论

        本文标题:nodejs - 爬虫

        本文链接:https://www.haomeiwen.com/subject/pvehnhtx.html