有关 JS 动态网页的爬取
有一些网站的内容由前端的JS动态生成,由于呈现在网页上的内容是由JS生成而来,我们能够在浏览器上看得到,但是在HTML源码中却发现不了。
以 今日头条 为例
如果我们要爬取首页滚动的新闻
右键首页新闻滚动框的新闻,点击 检查,可以看到网页加载的元素里有我们想要的内容
但是按 F12 查看源代码,却发现找不到我们想要的新闻了。
对于这种网页,我们应该如何对网页进行爬取呢?有两种方法:
(一)、从网页响应中找到JS脚本返回的JSON数据
(二)、用 Selenium 模拟浏览器对网页进行访问
我们分别来试试这两种方法。
1、通过 json 数据爬取 JS 动态内容
2、通过 selenium 模拟浏览器爬取 JS 动态内容
网友评论