爬虫(一)

作者: wqh8384 | 来源:发表于2019-02-16 19:17 被阅读1次

    一,HTML标记语言

    不是编程语言,是一种标识网页信息的符号标记语言

    HTML标记语言是一套标记,HTML使用标记来描述网页

    WEB浏览器的作用是读取HTML文档,并已网页的形式显示出它们。

    二,HTML基本结构

    a.<html>内容<html>

    HTML文档是由<html><html>包裹,这是HTML的文档标记,也是HTML开始标记。

    b.<head>内容<head>

    HTML文件头标记,用来包含文件的基本信息,例如标题,关键字

    注意:它标记的内容不会在浏览器中显示(<meta>内容<meta>页面的源信息,例如编码格式)

    c<title>内容<title>

    HTML文件标题标记,网页的‘主题’

    d<body>内容<body>

    网页的主体部分

    三,文档设置标记:

    1.<br>:强制换行标记

    2.<p>换段落标记

    3.<center>居中对齐标记

    4.<pre>预格式化标记,保留预先编排好的格式

    5.<li>列表项目标记,每个列表使用一个<li>标记

    6.<ul>无序列表标记,声明这个列表没有序号

    7.<ol>有序列表标记,可以显示特定的一些顺序

    8.<hr>水平分割线标记

    9.<div>分区显示标记,也称为层标记,常用来编排一大段的HTML段落,和<p>相似。

    四,图像标记

    <img>称为图像标记,用来在网页中显示图像

    <img src=“路径、文件名.图片格式”width="属性值“,border="属性值“>

    src:图片路径,格式

    width:图片的宽度

    height:图片的高度

    border:指定图片的边框宽度。

    五,进入网页,右键,点击检查/审查元素,然后点击Network,再点击Doc,再点击Doc里面的内容,然后点击Headers

    HTTP头部信息由众多的头域组成,每头域由一个域名,冒号和域值三部分组成。

    (1)GET代表的是请求方式,HTTP/1.1表示使用HTTP/1.1协议标准,200OK说明请求成功。

    主要请求方式有:

    Get方式:是以实体的方式得到由请求URL所指定资源的信息

    POST方式:用来向目的服务器发出请求

    如果用户输入的数据包敏感数据,那么使用POST为好。

    (2)Host头域,指定请求资源的internet主机和端口号,必须表示请求URL原始服务器和网关的位置

    (3)User-Agent:

    User-Agent:包含请求的用户信息,使用的浏览器型号,版本和操作系统,这个头域经常用来作为反爬虫的措施。

    Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36

    是能否接受爬虫的标记

    六,爬虫

    网页的三大特征:

    1.都有自己唯一的URL(统一资源定位符)来进行定位

    2.网页都使用HTML(超文本标记语言)来描述页面信息

    3.网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据

    爬虫设计思路:

    1.首先确定需要爬取的网页的URL地址

    2.通过HTTP/HTTPS协议来获取对应的HTML页面

    3.提取HTML页面里有用的数据:

    a,如果是需要的数据,就保持起来

    b,如果是页面里的其它URL,那就继续执行第二步。

    七,爬虫基本流程

    1.发起请求:

    通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的header等信息,等待服务器响应;

    2.获取响应内容:

    如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型

    3,解析内容:

    得到的可能是HTML,可以用正则表达式,网页解析库,可能是json,可以直接转为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理

    4.保存数据

    保存形式多样,可以存为文本,也可以保存至数据库,或者保存特定格式的文件。

    相关文章

      网友评论

        本文标题:爬虫(一)

        本文链接:https://www.haomeiwen.com/subject/mhuieqtx.html