第1关 HTML基础

作者: 夕颜00 | 来源:发表于2020-07-07 19:10 被阅读0次

第1关 HTML基础
HTML基础（上）
爬虫2 BeautifulSoup
基础关-1
HTML5基本介绍
啊哈编程星球-第1章-完善版
HTML5学习笔记之基础标签
2019-01-16《Learning Scrapy》（中文版）
HTML 基础 1
HTML基础（1）

1、HTML 是什么

HTML（Hyper Text Markup Language）是用来描述网页的一种语言，也叫超文本标记语言。

1-1、查看网页的 HTML 代码

①、显示网页源代码

在网页任意地方点击鼠标右键，然后点击“显示网页源代码”。（Windows系统的电脑还可以使用快捷键ctrl+u来查看网页源代码）

②、检查

à windows：在网页的空白处点击右键，然后选择“检查”（快捷方式是ctrl+shift+i）；

à mac：在网页的空白处点击右键，然后选择“检查”（快捷键 command + option + I(大写 I )）

2、HTML 的组成

2-1、标签和元素

（1）标签：夹在尖括号<>中间的字母，标签通常是成对出现的：前面的是【开始标签】，比如<body>；后面的是【结束标签】，如</body>；

（2）元素：开始标签+结束标签+中间的所有内容组成。

image.png

注意：HTML标签是可以嵌套标签的，而且可以多层嵌套；这就像是在电脑中，一个硬盘可以包含数个文件夹，文件夹中还可以嵌套文件夹。

2-2、网页头和网页体

image.png

HTML文档的最外层标签一定是<html>，里面嵌套着<head>元素与<body>元素。<head>元素代表了【网页头】，<body>元素代表了【网页体】，这是最基本的网页结构。

（1）【网页头】的内容不会被直接呈现在浏览器里的网页正文中；

（2）【网页体】的内容是会直接显示在网页正文中的。

2-3、属性

注意：HTML的属性和Python中的属性不是一个东西

image.png

①、h1 标签及其对应的属性 style

<h1 style="color:#20b2aa;">这个书苑不太冷</h1>

②、a 标签及其对应的属性 href

<a href="https://wordpress-edu-3autumn.localprod.forc.work/">我是一个链接，点我试试</a>

题目：
我们来回顾复习一下，试着获取【这个书苑不太冷5.0】的网页源代码。

URL：https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html

要做的就是，请求这个网页的源代码，并且打印出来。提示：可以用response.text来获得文本数据，然后再打印出来就好啦。

import requests
URL = "https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html"
out = "E:/Script/python/风变编程_爬虫/0-5关/练习/1/out.txt"
res = requests.get(URL)
print(res.status_code)

novel = res.text
print(novel)
with open(out,"w",encoding='utf-8') as f:
    f.write(novel)