美文网首页
Node.js cheerio + request 爬虫实战

Node.js cheerio + request 爬虫实战

作者: wivwiv | 来源:发表于2017-11-07 14:16 被阅读33次

    项目简介:

    使用 Nodes.js (以下简称Node) 完成

    1. 爬取一个传统静态网站, 用 cheerio 库做页面解析
    2. 爬取一个网络API接口数据
    3. 使用JSON文件保存所需数据
    4. 导出到 excel 或数据库

    1. 使用模块如下:

    "dependencies": {
        "cheerio": "^1.0.0-rc.2",
        "dateformat": "^3.0.2"
      }
    

    此外, 使用了 Node 内置模块 fs request

    2. 执行: 切换到项目目录

    npm test
    // 或者
    node index.js
    

    3. 项目地址 https://github.com/wiviwiv/web-crawler


    流程

    构造URL ===> 爬取检查 robots.txt ===> 清洗数据 ===> 存储文件

    未完待续 。。。

    相关文章

      网友评论

          本文标题:Node.js cheerio + request 爬虫实战

          本文链接:https://www.haomeiwen.com/subject/jvuupxtx.html