美文网首页
(五)获取JS动态内容

(五)获取JS动态内容

作者: 交易狗二哈 | 来源:发表于2017-03-24 20:43 被阅读296次

    有关 JS 动态网页的爬取
    有一些网站的内容由前端的JS动态生成,由于呈现在网页上的内容是由JS生成而来,我们能够在浏览器上看得到,但是在HTML源码中却发现不了。

    今日头条 为例
    如果我们要爬取首页滚动的新闻
    右键首页新闻滚动框的新闻,点击 检查,可以看到网页加载的元素里有我们想要的内容


    但是按 F12 查看源代码,却发现找不到我们想要的新闻了。

    对于这种网页,我们应该如何对网页进行爬取呢?有两种方法:

    (一)、从网页响应中找到JS脚本返回的JSON数据
    (二)、用 Selenium 模拟浏览器对网页进行访问

    我们分别来试试这两种方法。
    1、通过 json 数据爬取 JS 动态内容
    2、通过 selenium 模拟浏览器爬取 JS 动态内容

    相关文章

      网友评论

          本文标题:(五)获取JS动态内容

          本文链接:https://www.haomeiwen.com/subject/tsfqottx.html