1、认识爬虫
爬虫简单来说,就是按照一定的规则,自动地抓取互联网上所需要的信息的程序或者脚本。
用Python编写的代码进行爬虫,其实是针对网页进行的,因此在开始爬虫前应该对网页本身有一个基本的认识。
2、认识网页
网页简单来说,是由3部分构成的,分别是HTML、CSS和JavaScript。如果将一个完整的网页本身比作是一栋楼,那HTML就是这栋楼的钢架结构,HTML内部又由Header、Body和Footer3个部分组建而成;CSS则像是装修,将整栋楼装饰起来;JavaScript则像房屋中的WIFI、PC、电视等,负债提供某种功能和服务。如果某个网站只有HTML和CSS时,这样的网页称为静态网页,这时候网页中是不会向服务器发送数据请求的,即你无法完成注册、登陆等一系列需要向网页提出数据交换的请求。
以简书网页为例,打开网页后,右键点击检查,会弹出一个窗口,右侧Elements中会有一些标签语言。HTML就是这些标签<>,CSS就是【<div class="">】中的class,JavaScript就是<script>。在学习爬虫的过程中提取各种信息和元素时,主要会涉及到HTML和CSS。
3.认识HTML标签
在网页中,常会接触到的HTML标签如下:
<div></div>:标签定义 HTML 文档中的一个分隔区块或者一个区域部分。
<li></li>: 标签定义列表项目。
<p></p>:标签定义段落。
<img>:标签定义图片,用于插入图片。
<h1></h1>:标签定义字体大小。
<a href=" ">:标签定义超链接。
HTML标签有很多,如果遇到陌生的,可以直接上http://www.runoob.com/html/html-tutorial.html查询。
总结:
1.网页由HTML、CSS和JavaScript构成,三者各司其职,HTML为网页搭建框架,CSS为网页提供样式,JavaScript提供功能;
2.在学习爬虫的过程中主要会接触到HTML和CSS,常用到的6种HTML标签分别为:<div></div>、<li></li>、<p></p>、<img>、<h1></h1>和<a href=" ">。
网友评论