爬虫(一)

作者: wqh8384 | 来源:发表于2019-02-16 19:17 被阅读1次

爬虫入门基础
01-认识爬虫
11.20-11.26
Python代理IP爬虫的简单使用
CNN大战验证码
爬虫不尽兴？那再来点反爬虫吧！
爬虫？反爬虫！
3分钟带你了解世界第一语言Python 入门上手也这么简单！
Python网络爬虫
爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫

一，HTML标记语言

不是编程语言，是一种标识网页信息的符号标记语言

HTML标记语言是一套标记，HTML使用标记来描述网页

WEB浏览器的作用是读取HTML文档，并已网页的形式显示出它们。

二，HTML基本结构

a.<html>内容<html>

HTML文档是由<html><html>包裹，这是HTML的文档标记，也是HTML开始标记。

b.<head>内容<head>

HTML文件头标记，用来包含文件的基本信息，例如标题，关键字

注意：它标记的内容不会在浏览器中显示（<meta>内容<meta>页面的源信息，例如编码格式）

c<title>内容<title>

HTML文件标题标记，网页的‘主题’

d<body>内容<body>

网页的主体部分

三，文档设置标记：

1.<br>:强制换行标记

2.<p>换段落标记

3.<center>居中对齐标记

4.<pre>预格式化标记，保留预先编排好的格式

5.<li>列表项目标记，每个列表使用一个<li>标记

6.<ul>无序列表标记，声明这个列表没有序号

7.<ol>有序列表标记，可以显示特定的一些顺序

8.<hr>水平分割线标记

9.<div>分区显示标记，也称为层标记，常用来编排一大段的HTML段落，和<p>相似。

四，图像标记

<img>称为图像标记，用来在网页中显示图像

src：图片路径，格式

width：图片的宽度

height：图片的高度

border：指定图片的边框宽度。

五，进入网页，右键，点击检查/审查元素，然后点击Network，再点击Doc，再点击Doc里面的内容，然后点击Headers

HTTP头部信息由众多的头域组成，每头域由一个域名，冒号和域值三部分组成。

(1)GET代表的是请求方式，HTTP/1.1表示使用HTTP/1.1协议标准，200OK说明请求成功。

主要请求方式有：

Get方式：是以实体的方式得到由请求URL所指定资源的信息

POST方式：用来向目的服务器发出请求

如果用户输入的数据包敏感数据，那么使用POST为好。

（2）Host头域，指定请求资源的internet主机和端口号，必须表示请求URL原始服务器和网关的位置

(3)User-Agent:

User-Agent:包含请求的用户信息，使用的浏览器型号，版本和操作系统，这个头域经常用来作为反爬虫的措施。

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36

是能否接受爬虫的标记

六，爬虫

网页的三大特征：

1.都有自己唯一的URL（统一资源定位符）来进行定位

2.网页都使用HTML（超文本标记语言）来描述页面信息

3.网页都使用HTTP/HTTPS(超文本传输协议）协议来传输HTML数据

爬虫设计思路：

1.首先确定需要爬取的网页的URL地址

2.通过HTTP/HTTPS协议来获取对应的HTML页面

3.提取HTML页面里有用的数据：

a，如果是需要的数据，就保持起来

b，如果是页面里的其它URL，那就继续执行第二步。

七，爬虫基本流程

1.发起请求：

通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的header等信息，等待服务器响应；

2.获取响应内容：

如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能有HTML,Json字符串，二进制数据（如图片视频）等类型

3，解析内容：

得到的可能是HTML，可以用正则表达式，网页解析库，可能是json，可以直接转为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理

4.保存数据

保存形式多样，可以存为文本，也可以保存至数据库，或者保存特定格式的文件。

网友评论

数据蛙数据分析每周作业

本文标题：爬虫(一)

本文链接：https://www.haomeiwen.com/subject/mhuieqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫(一)

相关文章

爬虫入门基础

01-认识爬虫

11.20-11.26

Python代理IP爬虫的简单使用

CNN大战验证码

爬虫不尽兴？那再来点反爬虫吧！

爬虫？反爬虫！

3分钟带你了解世界第一语言Python 入门上手也这么简单！

Python网络爬虫

爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

数据蛙数据分析每周作业