爬虫遇到动态HTML的情况

作者: 博行天下 | 来源:发表于2017-11-21 09:15 被阅读64次
1、JavaScript

JavaScript 是网络上最常用也是支持者最多的客户端脚本语言。它可以收集 用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏。
我们可以在网页源代码的<scripy>标签里看到,比如:

<script type="text/javascript" src="链接"></script>
2、jQuery

jQuery 是一个十分常见的库,70% 最流行的网站和约 30% 的其他网站都在使用。一个网站使用 jQuery 的特征,就是源代码里包含了 jQuery 入口。
如果你在一个网站上看到了 jQuery,那么采集这个网站数据的时候要格外小心。jQuery 可 以动态地创建 HTML 内容,只有在 JavaScript 代码执行之后才会显示。如果你用传统的方 法采集页面内容,就只能获得 JavaScript 代码执行之前页面上的内容。

<script type="text/javascript" src="js/jquery-1.11.1.min.js?v=201512181512"></script>
3、Ajax

我们与网站服务器通信的唯一方式,就是发出 HTTP 请求获取新页面。如果提交表单之后,或从服务器获取信息之后,网站的页面不需要重新刷新,那么你访问的网站就在用Ajax 技术。

4、DHTML

DHTML 是用客户端语言改变页面的 HTML 元素(HTML、CSS,或者二者皆 被改变)。比如页面上的按钮只有当用户移动鼠标之后才出现,背景色可能每次点击都会改变,或者用一个 Ajax 请求触发页面加载一段新内容,网页是否属于DHTML,关键要看有没有用 JavaScript 控制 HTML 和 CSS 元素。

Python 解决这个问题只有两种途径:
(1) 直接从 JavaScript 代码里采集内容
(2) 用 Python 的 第三方库运行 JavaScript,直接采集你在浏览器里看到的页面(这个比较好)。

相关文章

  • 爬虫遇到动态HTML的情况

    1、JavaScript JavaScript 是网络上最常用也是支持者最多的客户端脚本语言。它可以收集 用户的跟...

  • 爬虫理解版本3

    1 爬虫高级 1.1 动态HTML处理和机器图像识别 爬虫(Spider),反爬虫(Anti-Spider),反反...

  • Python爬虫html转markdown

    Python爬虫html转markdown 说明 动态博客转静态博客(例如typecho转hexo),在上传静态博...

  • 记录 ghost.py 设置proxy的过程

    因为要做爬虫,遇到很多js动态解析的页面,但是scrapy无法提取js动态加载的数据,在使用了 selenium ...

  • Python爬虫(6)-抓动态html

    环境:Python3.6工具:PyCharm目录:Menu目标:1.抓取Ajax执行后的动态html数据。2.抓取...

  • Python爬虫(十九)_动态HTML介绍

    JavaScript JavaScript是网络上最常用也是支持者对多的客户端脚本语言。它可以收集用户的跟踪数据,...

  • 爬虫初窥

    静态爬虫和动态爬虫 静态爬虫:页面数据的展示不依靠js等和后台的交互。动态爬虫:页面的数据需要通过js,ajax等...

  • 中国大学排名爬虫

    确定爬虫方案是否可行 1)页面信息是否在HTML代码中。 有一些页面内容是通过javascript 动态生成的。 ...

  • 完美解决listView 文字超链接点击事件和listitem点

    最近开发遇到listView中解析爬虫回来的html数据超链接点击问题。有文字html标签链接和纯网址链接混合...

  • Python 爬虫_动态网页抓取

    挖坑____ 理解静态网页 理解动态网页 爬虫的基本原理 爬虫与网页内容之间的关系 使用爬虫抓取动态网页内容

网友评论

    本文标题:爬虫遇到动态HTML的情况

    本文链接:https://www.haomeiwen.com/subject/qtjivxtx.html