爬虫(一)

作者: wqh8384 | 来源:发表于2019-02-16 19:17 被阅读1次

一,HTML标记语言

不是编程语言,是一种标识网页信息的符号标记语言

HTML标记语言是一套标记,HTML使用标记来描述网页

WEB浏览器的作用是读取HTML文档,并已网页的形式显示出它们。

二,HTML基本结构

a.<html>内容<html>

HTML文档是由<html><html>包裹,这是HTML的文档标记,也是HTML开始标记。

b.<head>内容<head>

HTML文件头标记,用来包含文件的基本信息,例如标题,关键字

注意:它标记的内容不会在浏览器中显示(<meta>内容<meta>页面的源信息,例如编码格式)

c<title>内容<title>

HTML文件标题标记,网页的‘主题’

d<body>内容<body>

网页的主体部分

三,文档设置标记:

1.<br>:强制换行标记

2.<p>换段落标记

3.<center>居中对齐标记

4.<pre>预格式化标记,保留预先编排好的格式

5.<li>列表项目标记,每个列表使用一个<li>标记

6.<ul>无序列表标记,声明这个列表没有序号

7.<ol>有序列表标记,可以显示特定的一些顺序

8.<hr>水平分割线标记

9.<div>分区显示标记,也称为层标记,常用来编排一大段的HTML段落,和<p>相似。

四,图像标记

<img>称为图像标记,用来在网页中显示图像

<img src=“路径、文件名.图片格式”width="属性值“,border="属性值“>

src:图片路径,格式

width:图片的宽度

height:图片的高度

border:指定图片的边框宽度。

五,进入网页,右键,点击检查/审查元素,然后点击Network,再点击Doc,再点击Doc里面的内容,然后点击Headers

HTTP头部信息由众多的头域组成,每头域由一个域名,冒号和域值三部分组成。

(1)GET代表的是请求方式,HTTP/1.1表示使用HTTP/1.1协议标准,200OK说明请求成功。

主要请求方式有:

Get方式:是以实体的方式得到由请求URL所指定资源的信息

POST方式:用来向目的服务器发出请求

如果用户输入的数据包敏感数据,那么使用POST为好。

(2)Host头域,指定请求资源的internet主机和端口号,必须表示请求URL原始服务器和网关的位置

(3)User-Agent:

User-Agent:包含请求的用户信息,使用的浏览器型号,版本和操作系统,这个头域经常用来作为反爬虫的措施。

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36

是能否接受爬虫的标记

六,爬虫

网页的三大特征:

1.都有自己唯一的URL(统一资源定位符)来进行定位

2.网页都使用HTML(超文本标记语言)来描述页面信息

3.网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据

爬虫设计思路:

1.首先确定需要爬取的网页的URL地址

2.通过HTTP/HTTPS协议来获取对应的HTML页面

3.提取HTML页面里有用的数据:

a,如果是需要的数据,就保持起来

b,如果是页面里的其它URL,那就继续执行第二步。

七,爬虫基本流程

1.发起请求:

通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的header等信息,等待服务器响应;

2.获取响应内容:

如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型

3,解析内容:

得到的可能是HTML,可以用正则表达式,网页解析库,可能是json,可以直接转为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理

4.保存数据

保存形式多样,可以存为文本,也可以保存至数据库,或者保存特定格式的文件。

相关文章

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

  • 01-认识爬虫

    一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫三角之争 网...

  • 11.20-11.26

    本周目标 爬虫 爬虫 爬虫 爬虫

  • Python代理IP爬虫的简单使用

    前言 Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列...

  • CNN大战验证码

    介绍   爬虫江湖,风云再起。自从有了爬虫,也就有了反爬虫;自从有了反爬虫,也就有了反反爬虫。  反爬虫界的一大利...

  • 爬虫不尽兴?那再来点反爬虫吧!

    爬虫与反爬虫,这相爱相杀的一对,在现在你会爬虫是不够的,你还得会反爬虫。 为 Python 平反 首先是爬虫,爬虫...

  • 爬虫?反爬虫!

    爬虫与反爬虫,这相爱相杀的一对,在现在你会爬虫是不够的,你还得会反爬虫。 为 Python 平反 首先是爬虫,爬虫...

  • 3分钟带你了解世界第一语言Python 入门上手也这么简单!

    一、Python入门 1. Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入...

  • Python网络爬虫

    Python开发简单爬虫(Python2.X版本,Eclipse工具) 一、爬虫介绍 爬虫调度端:启动、停止爬虫,...

  • 爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索...

网友评论

    本文标题:爬虫(一)

    本文链接:https://www.haomeiwen.com/subject/mhuieqtx.html