Python学习笔记2——认识网页

作者: 装满水的空瓶 | 来源:发表于2017-11-18 17:06 被阅读24次

Python学习笔记2——认识网页
快速创建一个网页_Django学习笔记（三）-python3
Python爬虫学习笔记：基础篇
Python学习笔记
URL
Python实战计划学习笔记（2）网页解析
Python学习笔记(2)采集网页数据
python爬虫(四)_urllib2库的基本使用
学习2/4
Python学习

1、认识爬虫

爬虫简单来说，就是按照一定的规则，自动地抓取互联网上所需要的信息的程序或者脚本。

用Python编写的代码进行爬虫，其实是针对网页进行的，因此在开始爬虫前应该对网页本身有一个基本的认识。

2、认识网页

网页简单来说，是由3部分构成的，分别是HTML、CSS和JavaScript。如果将一个完整的网页本身比作是一栋楼，那HTML就是这栋楼的钢架结构，HTML内部又由Header、Body和Footer3个部分组建而成；CSS则像是装修，将整栋楼装饰起来；JavaScript则像房屋中的WIFI、PC、电视等，负债提供某种功能和服务。如果某个网站只有HTML和CSS时，这样的网页称为静态网页，这时候网页中是不会向服务器发送数据请求的，即你无法完成注册、登陆等一系列需要向网页提出数据交换的请求。

以简书网页为例，打开网页后，右键点击检查，会弹出一个窗口，右侧Elements中会有一些标签语言。HTML就是这些标签<>，CSS就是【<div class="">】中的class，JavaScript就是<script>。在学习爬虫的过程中提取各种信息和元素时，主要会涉及到HTML和CSS。