美文网首页
node 写爬虫

node 写爬虫

作者: 韩柯炜 | 来源:发表于2017-12-21 23:26 被阅读0次

    1. 爬虫 ---- 小公司数据采集之必备

    node 写爬虫的优势

    • 你只需要一个前端工程师 (最重要的一点)
    • 你不需要重新学习一门语言
    • node 的异步很适合处理IO密集型应用场景
    • node 有很多npm包帮助你更加轻松的完成爬虫业务

    爬虫的基本操作

    • 怎么去爬取网页的内容(爬虫的hello world)

    环境搭建 (具体搭建方法请自行google)

        node 建议安装 8.4 以上 支持async await --- 贼爽 
        chrome 浏览器 
        vscode 贼好用的编辑器
        postman 模拟http请求
        charles 抓包工具 (app应用的http请求抓取)
    

    爬虫之hello world

       mkdir spider //创建spider目录
       cd spider //切到spider目录下
       npm init //用npm初始化项目 会产生一个package.json文件
       npm i  cheerio node-fetch --save // 安装依赖
       touch index.js //创建一个index.js文件 
       vim index.js //用vim 进行编辑  按 I 进入编辑模式
       进入编辑模式后
       输入代码:
        console.log('hello word --- 之爬虫');
        const fetch = require('node-fetch');
        fetch('https://www.baidu.com',{
            method:'GET'
        }).then(async res=>{
              let html = await res.text(); //url是html
              // let json = await res.json();//url 是json文件
              console.log(html);
        })
        按ESC 退出编辑模式 按 SHIFT +  : 输入wq! 回车 保存代码退出vim编辑器
        然后用node index.js 运行代码.在终端你就可以看到百度的源码HTML 的文本了
        
    

    爬虫就是这么简单

    相关文章

      网友评论

          本文标题:node 写爬虫

          本文链接:https://www.haomeiwen.com/subject/iovfextx.html