今天是Andy学Python的第55 天哦!
大家好,我是Andy。
在抓取网页特定数据之前,需要学习HTML基本知识。
01.
什么是HTML语言
HTML的全名是“超文本标记语言”(HyperText Markup Language)。超文本标记语言(或超文本标签语言)的结构包括“头”部分和“主体”部分,其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容。它具有简易性、可扩展性、平台无关性、通用性等特点。
1.1 HTML语言简单,操作方便,打开速度非常快。
1.2 HTML可扩展性,目前HTML有着广泛的应用。
1.3 HTML通用性,HTML是一种通用的语言,用户可以创建图文结合的页面,可跨平台使用,无论什么浏览器,都可以访问。
PS:浏览器的网页开发,涉及三种技术:HTML、CSS 和 JavaScript。HTML 语言定义网页的结构和内容,CSS 样式表定义网页的样式,JavaScript 语言定义网页与用户的互动行为。本节只学习HTML语言。
02.
HTML语言结构
HTML网页是由许多不同的标签( tag )构成。
标签放在一对单书名号里面(比如<title>),大多数标签都是成对出现的,分成开始标签和结束标签,结束标签在标签名之前加斜杠(比如</title>)。少数标签不是成对使用,而是只有开始标签,没有结束标签,比如<img src=”image.jpg”〉。
2.1 常用标签语法
①:HTML文档必须以类型声明开始。
②HTML文档写在 和标签之间。
③HTML文档的可见部分写在 和标签之间。
④HTML头使用
到
标签定义。
⑤HTML段落使用
标签定义。
⑥标签名是大小写不敏感,比如<title>和<TITLE>是同一个标签。一般习惯使用小写。
⑦HTML语言忽略缩进和换行,HTML 代码中的所有连续的空格或空行(换行)都会被显示为一个空格,不管是内容还是标签之间。
⑧HTML注释以结尾,可单行也可多行。
2.2 标签属性
属性是标签的额外信息,使用空格与标签名和其他属性分隔。
<img src="demo.jpg" width="500">
其中,<img>标签有两个属性:src和width。
2.3 基本标签
符合语法标准的网页,应该满足下面的基本结构。
<!DOCTYPE html> # <html lang="en">
<head>
<meta charset="utf-8">
<title></title>
</head>
<body>
</body>
</html>
03.
标签简介
3.1 <!doctype>
网页的第一个标签通常是<!doctype>,表示文档类型,告诉浏览器如何解析网页。
一般来说,只要像下面这样,简单声明doctype为html即可。
<!doctype html>
3.2 <html>
一个网页只能有一个<html>标签。
该标签的lang属性,表示网页内容默认的语言。
<html lang="en"> 默认英语
3.3 <head>
<head>标签是一个容器标签,用于放置网页的元信息。它的内容不会出现在网页上。
<head>是<html>的第一个子元素。如果网页不包含<head>,浏览器会自动创建一个。
<head>的子元素一般有下面七个。
<meta>:设置网页的元数据。
<link>:连接外部样式表。
<title>:设置网页标题。
<style>:放置内嵌的样式表。
<script>:引入脚本。
<noscript>:浏览器不支持脚本时,所要显示的内容。
<base>:设置网页内部相对 URL 的计算基准。
3.4 <meta>
<meta>标签用于设置或说明网页的元数据,必须放在<head>里面。一个<meta>标签就是一项元数据,网页可以有多个<meta>。
3.5 <title>
<title>标签用于指定网页的标题,会显示在浏览器窗口的标题栏。
搜索引擎根据这个标签,显示每个网页的标题。它对于网页在搜索引擎的排序,有很大的影响,应该精心安排,反映网页的主题。
<title>标签的内部,不能再放置其他标签,只能放置无格式的纯文本。
3.6 <body>
<body>标签是一个容器标签,用于放置网页的主体内容。浏览器显示的页面内容,都是放置在它的内部。
04.
查看网页源代码
谷歌浏览器“开发者工具”,快捷键是CTRL+SHIFT+I。
搜狗/QQ/IE/Firefox 浏览器浏览网站时,按下 F12 键就会打开网页的开发者界面。
也可在网页上单击鼠标右键,在弹出的快捷菜单中点击“查看网页源代码”。
51Day Day up!
向上向善,日进一步!
每天学习,努力成长!
定个小目标,开启成长的旅程,遇见更好的自己。
这是我们和自己的约定,许诺自己不负韶华。
路虽远,行则将至;事虽难,做则必成。
成长的最好时机,就是当下。
网友评论