美文网首页
Python学习笔记2——认识网页

Python学习笔记2——认识网页

作者: 装满水的空瓶 | 来源:发表于2017-11-18 17:06 被阅读24次

    1、认识爬虫

    爬虫简单来说,就是按照一定的规则,自动地抓取互联网上所需要的信息的程序或者脚本。

    用Python编写的代码进行爬虫,其实是针对网页进行的,因此在开始爬虫前应该对网页本身有一个基本的认识。

    2、认识网页

    网页简单来说,是由3部分构成的,分别是HTML、CSS和JavaScript。如果将一个完整的网页本身比作是一栋楼,那HTML就是这栋楼的钢架结构,HTML内部又由Header、Body和Footer3个部分组建而成;CSS则像是装修,将整栋楼装饰起来;JavaScript则像房屋中的WIFI、PC、电视等,负债提供某种功能和服务。如果某个网站只有HTML和CSS时,这样的网页称为静态网页,这时候网页中是不会向服务器发送数据请求的,即你无法完成注册、登陆等一系列需要向网页提出数据交换的请求。

    以简书网页为例,打开网页后,右键点击检查,会弹出一个窗口,右侧Elements中会有一些标签语言。HTML就是这些标签<>,CSS就是【<div class="">】中的class,JavaScript就是<script>。在学习爬虫的过程中提取各种信息和元素时,主要会涉及到HTML和CSS。

    3.认识HTML标签

    在网页中,常会接触到的HTML标签如下:

    <div></div>:标签定义 HTML 文档中的一个分隔区块或者一个区域部分。

    <li></li>: 标签定义列表项目。

    <p></p>:标签定义段落。

    <img>:标签定义图片,用于插入图片。

    <h1></h1>:标签定义字体大小。

    <a href=" ">:标签定义超链接。

    HTML标签有很多,如果遇到陌生的,可以直接上http://www.runoob.com/html/html-tutorial.html查询。

    总结:

    1.网页由HTML、CSS和JavaScript构成,三者各司其职,HTML为网页搭建框架,CSS为网页提供样式,JavaScript提供功能;

    2.在学习爬虫的过程中主要会接触到HTML和CSS,常用到的6种HTML标签分别为:<div></div>、<li></li>、<p></p>、<img>、<h1></h1>和<a href=" ">。

    相关文章

      网友评论

          本文标题:Python学习笔记2——认识网页

          本文链接:https://www.haomeiwen.com/subject/messvxtx.html