一,HTML标记语言
不是编程语言,是一种标识网页信息的符号标记语言
HTML标记语言是一套标记,HTML使用标记来描述网页
WEB浏览器的作用是读取HTML文档,并已网页的形式显示出它们。
二,HTML基本结构
a.<html>内容<html>
HTML文档是由<html><html>包裹,这是HTML的文档标记,也是HTML开始标记。
b.<head>内容<head>
HTML文件头标记,用来包含文件的基本信息,例如标题,关键字
注意:它标记的内容不会在浏览器中显示(<meta>内容<meta>页面的源信息,例如编码格式)
c<title>内容<title>
HTML文件标题标记,网页的‘主题’
d<body>内容<body>
网页的主体部分
三,文档设置标记:
1.<br>:强制换行标记
2.<p>换段落标记
3.<center>居中对齐标记
4.<pre>预格式化标记,保留预先编排好的格式
5.<li>列表项目标记,每个列表使用一个<li>标记
6.<ul>无序列表标记,声明这个列表没有序号
7.<ol>有序列表标记,可以显示特定的一些顺序
8.<hr>水平分割线标记
9.<div>分区显示标记,也称为层标记,常用来编排一大段的HTML段落,和<p>相似。
四,图像标记
<img>称为图像标记,用来在网页中显示图像
<img src=“路径、文件名.图片格式”width="属性值“,border="属性值“>
src:图片路径,格式
width:图片的宽度
height:图片的高度
border:指定图片的边框宽度。
五,进入网页,右键,点击检查/审查元素,然后点击Network,再点击Doc,再点击Doc里面的内容,然后点击Headers
HTTP头部信息由众多的头域组成,每头域由一个域名,冒号和域值三部分组成。
(1)GET代表的是请求方式,HTTP/1.1表示使用HTTP/1.1协议标准,200OK说明请求成功。
主要请求方式有:
Get方式:是以实体的方式得到由请求URL所指定资源的信息
POST方式:用来向目的服务器发出请求
如果用户输入的数据包敏感数据,那么使用POST为好。
(2)Host头域,指定请求资源的internet主机和端口号,必须表示请求URL原始服务器和网关的位置
(3)User-Agent:
User-Agent:包含请求的用户信息,使用的浏览器型号,版本和操作系统,这个头域经常用来作为反爬虫的措施。
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36
是能否接受爬虫的标记
六,爬虫
网页的三大特征:
1.都有自己唯一的URL(统一资源定位符)来进行定位
2.网页都使用HTML(超文本标记语言)来描述页面信息
3.网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据
爬虫设计思路:
1.首先确定需要爬取的网页的URL地址
2.通过HTTP/HTTPS协议来获取对应的HTML页面
3.提取HTML页面里有用的数据:
a,如果是需要的数据,就保持起来
b,如果是页面里的其它URL,那就继续执行第二步。
七,爬虫基本流程
1.发起请求:
通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的header等信息,等待服务器响应;
2.获取响应内容:
如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型
3,解析内容:
得到的可能是HTML,可以用正则表达式,网页解析库,可能是json,可以直接转为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理
4.保存数据
保存形式多样,可以存为文本,也可以保存至数据库,或者保存特定格式的文件。
网友评论