1、HTML 是什么
HTML(Hyper Text Markup Language)是用来描述网页的一种语言,也叫超文本标记语言 。
1-1、查看网页的 HTML 代码
①、显示网页源代码
在网页任意地方点击鼠标右键,然后点击“显示网页源代码”。(Windows系统的电脑还可以使用快捷键ctrl+u来查看网页源代码)
②、检查
à windows:在网页的空白处点击右键,然后选择“检查”(快捷方式是ctrl+shift+i);
à mac:在网页的空白处点击右键,然后选择“检查”(快捷键 command + option + I(大写 I ))
2、HTML 的组成
2-1、标签和元素
(1)标签:夹在尖括号<>中间的字母,标签通常是成对出现的:前面的是【开始标签】,比如<body>;后面的是【结束标签】,如</body>;
(2)元素:开始标签+结束标签+中间的所有内容组成。
![](https://img.haomeiwen.com/i22798912/df8907ca1af3484f.png)
注意:HTML标签是可以嵌套标签的,而且可以多层嵌套;这就像是在电脑中,一个硬盘可以包含数个文件夹,文件夹中还可以嵌套文件夹。
2-2、网页头和网页体
![](https://img.haomeiwen.com/i22798912/0a86a55a4c06aef7.png)
HTML文档的最外层标签一定是<html>,里面嵌套着<head>元素与<body>元素。<head>元素代表了【网页头】,<body>元素代表了【网页体】,这是最基本的网页结构。
(1)【网页头】的内容不会被直接呈现在浏览器里的网页正文中;
(2)【网页体】的内容是会直接显示在网页正文中的。
2-3、属性
注意:HTML的属性和Python中的属性不是一个东西
![](https://img.haomeiwen.com/i22798912/77dc4b5faa8afcf6.png)
①、h1 标签及其对应的属性 style
<h1 style="color:#20b2aa;">这个书苑不太冷</h1>
②、a 标签及其对应的属性 href
<a href="https://wordpress-edu-3autumn.localprod.forc.work/">我是一个链接,点我试试</a>
题目:
我们来回顾复习一下,试着获取【这个书苑不太冷5.0】的网页源代码。
URL:https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html
要做的就是,请求这个网页的源代码,并且打印出来。提示:可以用response.text来获得文本数据,然后再打印出来就好啦。
import requests
URL = "https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html"
out = "E:/Script/python/风变编程_爬虫/0-5关/练习/1/out.txt"
res = requests.get(URL)
print(res.status_code)
novel = res.text
print(novel)
with open(out,"w",encoding='utf-8') as f:
f.write(novel)
网友评论