美文网首页
python3 爬虫学习之html标签

python3 爬虫学习之html标签

作者: python攻城狮 | 来源:发表于2020-04-25 14:52 被阅读0次

在上一篇文章python3 爬虫学习python爬虫库-requests使用方法详细介绍中我们介绍了使用requests的使用方法

import requests         # 导入requests模块
url = 'http://www.baidu.com'           # 目标url地址
re = requests.get(url)          # 发起请求
print(re.text)           
输出结果

我们看到,pycharm给我们输出了很多的英文代码,这个其实就是网页的源代码,也是爬虫看到的东西,我们看到的百度首页是浏览器解析之后的样子。

为了弄懂爬虫解析和提取的代码究竟是什么意思,咱们得先来学习一下html的基础知识。

标签 示例 用法
<html> <html>所有网页内容</html> <html> 元素定义了整个 HTML 文档。这个元素拥有一个开始标签 <html> ,以及一个结束标签 </html>.
<body> <body><p>这是第一个段落。</p></body> <body> 元素定义了 HTML 文档的主体。这个元素拥有一个开始标签 <body>,以及一个结束标签 </body>。
<div> <div>块内容</div> 定义文档中的分区或块
<p> <p>这是一个段落。</p> <p> 元素定义了 HTML 文档中的一个段落。这个元素拥有一个开始标签 <p> 以及一个结束标签 </p>.
<span> <span></span> 定义 span,用来组合文档中的行内元素。
<a> <a href="https://www.baidu.com">这是一个链接</a> a标签用来放链接
<img/> <img src="/images/logo.png" width="100" height="100" /> 图片标签是一个自闭标签,没有结束标签
<h1> <h1>这是一个标题</h1> 标题(Heading)是通过<h1> - <h6> 标签来定义的
... ... ...
<h6> <h6>这是第六级标题</h6> 标题(Heading)是通过<h1> - <h6> 标签来定义的
HTML 标签语法
  • HTML标签以开始标签起始(不带斜杠的为开始标签:<html>

  • HTML标签以结束标签终止(带斜杠的为结束标签:</html>

  • 标签的内容是开始标签与结束标签之间的内容

  • 某些 HTML 标签具有空内容(empty content)

  • 空标签在开始标签中进行关闭(以开始标签的结束而结束)

  • 大多数 HTML 标签可拥有属性

HTML 标签嵌套示例
<!DOCTYPE html>
<html>

<body>
<h1>这是一个标题</h1> 
<p>这是第一个段落。</p>
</body>

</html>
HTML 自闭标签
标签 介绍
<br/> 表示换行。
<hr/> 表示画一条线。
<area/> 标签定义图像映射中的区域(注:图像映射指得是带有可点击区域的图像)。area 元素总是嵌套在 <map> 标签中。
<base/> 标签为页面上的所有链接规定默认地址或默认目标。
<img/> 放入图片。
<input/> 用户输入的标签。
<link/> 标签定义文档与外部资源的关系。 标签最常见的用途是链接样式表。
<meta/> 元素可提供有关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词。标签位于文档的头部,不包含任何内容。<meta> 标签的属性定义了与文档相关联的名称/值对。
<basefont/> 标签定义基准字体。该标签可以为文档中的所有文本定义默认字体颜色、字体大小和字体系列。
<param/> 元素允许您为插入 XHTML 文档的对象规定 run-time 设置。
<col/> 为表格中一个或多个列定义属性值。
<frame/> 定义frameset中的一个特定的窗口。
<embed/> 可以在页面中嵌入任何类型的文档。
<keygen/> 标签规定用于表单的密钥对生成器字段。当提交表单时,私钥存储在本地,公钥发送到服务器。
<source/> 为媒介元素,定义媒介资源。
<command/> 元素表示用户能够调用的命令。标签可以定义命令按钮,比如单选按钮、复选框或按钮。只有当 command 元素位于 menu 元素内时,该元素才是可见的。否则不会显示这个元素,但是可以用它规定键盘快捷键。
<track/> 标签为诸如 video 元素之类的媒介规定外部文本轨道。用于规定字幕文件或其他包含文本的文件,当媒介播放时,这些文件是可见的。
<wbr/> 规定在文本中的何处适合添加换行符。如果单词太长,或者您担心浏览器会在错误的位置换行,那么您可以使用 <wbr> 元素来添加 Word Break Opportunity(单词换行时机)。

相关文章

  • python3 爬虫学习之html标签

    在上一篇文章python3 爬虫学习python爬虫库-requests使用方法详细介绍中我们介绍了使用reque...

  • HTML5 &CSS3 学习笔记

    HTML5 and CSS 最近在学习Python3的网络爬虫,但是由于自己对html的知识相对匮乏,学习起来挺吃...

  • python之爬虫入门学习

    爬虫入门学习 一、爬虫基本流程 第一步,根据URL,获取网页的HTML信息。在Python3中,可以使用urlli...

  • 使用pyh生成HTML文档

    title: 使用pyh生成HTML文档tags: [python3, 爬虫,pyh]date: 2018-03-...

  • HTML5学习笔记之表格标签

    HTML5学习笔记之表格标签 其他HTML5相关文章 HTML5学习笔记之HTML5基本介绍 HTML5学习笔记之...

  • HTML5学习笔记之表单标签

    HTML5学习笔记之表单标签 其他HTML5相关文章 HTML5学习笔记之HTML5基本介绍 HTML5学习笔记之...

  • HTML5学习笔记之基础标签

    HTML5学习笔记之基础标签 其他HTML5相关文章 HTML5学习笔记之HTML5基本介绍 HTML5学习笔记之...

  • html学习之标签

    闲暇之余,看看html。首先来个hello world吧 学习web前端开发基础技术需要掌握:HTML、CSS、J...

  • HTML5基本介绍

    HTML5基本介绍 其他HTML5相关文章 HTML5学习笔记之HTML5基本介绍 HTML5学习笔记之基础标签 ...

  • html入门了解

    html根标签,所有html的内容必须写在html标签内,代表是一个页面lang="en"告诉搜索引擎爬虫,我们的...

网友评论

      本文标题:python3 爬虫学习之html标签

      本文链接:https://www.haomeiwen.com/subject/dntkwhtx.html