美文网首页
Python学习笔记2——认识网页

Python学习笔记2——认识网页

作者: 装满水的空瓶 | 来源:发表于2017-11-18 17:06 被阅读24次

1、认识爬虫

爬虫简单来说,就是按照一定的规则,自动地抓取互联网上所需要的信息的程序或者脚本。

用Python编写的代码进行爬虫,其实是针对网页进行的,因此在开始爬虫前应该对网页本身有一个基本的认识。

2、认识网页

网页简单来说,是由3部分构成的,分别是HTML、CSS和JavaScript。如果将一个完整的网页本身比作是一栋楼,那HTML就是这栋楼的钢架结构,HTML内部又由Header、Body和Footer3个部分组建而成;CSS则像是装修,将整栋楼装饰起来;JavaScript则像房屋中的WIFI、PC、电视等,负债提供某种功能和服务。如果某个网站只有HTML和CSS时,这样的网页称为静态网页,这时候网页中是不会向服务器发送数据请求的,即你无法完成注册、登陆等一系列需要向网页提出数据交换的请求。

以简书网页为例,打开网页后,右键点击检查,会弹出一个窗口,右侧Elements中会有一些标签语言。HTML就是这些标签<>,CSS就是【<div class="">】中的class,JavaScript就是<script>。在学习爬虫的过程中提取各种信息和元素时,主要会涉及到HTML和CSS。

3.认识HTML标签

在网页中,常会接触到的HTML标签如下:

<div></div>:标签定义 HTML 文档中的一个分隔区块或者一个区域部分。

<li></li>: 标签定义列表项目。

<p></p>:标签定义段落。

<img>:标签定义图片,用于插入图片。

<h1></h1>:标签定义字体大小。

<a href=" ">:标签定义超链接。

HTML标签有很多,如果遇到陌生的,可以直接上http://www.runoob.com/html/html-tutorial.html查询。

总结:

1.网页由HTML、CSS和JavaScript构成,三者各司其职,HTML为网页搭建框架,CSS为网页提供样式,JavaScript提供功能;

2.在学习爬虫的过程中主要会接触到HTML和CSS,常用到的6种HTML标签分别为:<div></div>、<li></li>、<p></p>、<img>、<h1></h1>和<a href=" ">。

相关文章

  • Python学习笔记2——认识网页

    1、认识爬虫 爬虫简单来说,就是按照一定的规则,自动地抓取互联网上所需要的信息的程序或者脚本。 用Python编写...

  • 快速创建一个网页_Django学习笔记(三)-python3

    快速创建一个网页_Django学习笔记(三)-python3 1. 快速创建一个网页 2. mtv开发模式 a. ...

  • Python爬虫学习笔记:基础篇

    备注:本学习笔记适合对python语法有一点基础,对网页有一些基础认识,同时刚刚接触爬虫的同学,不过如果什么都不懂...

  • Python学习笔记

    参考文章 Python学习笔记[2] 一步一步教你认识Python闭包 高阶函数 特殊的函数,特殊在能将函数作为参...

  • URL

    学习python网页编程

  • Python实战计划学习笔记(2)网页解析

    python中解析网页内容基本步骤 使用BeautifulSoup解析网页Soup = BeautifulSoup...

  • Python学习笔记(2)采集网页数据

    一、操作步骤 下面用京东网站作为案例,给大家演示如何使用直观标注的功能采集网页数据,操作步骤如下: 二、案例规则+...

  • python爬虫(四)_urllib2库的基本使用

    本篇我们将开始学习如何进行网页抓取,更多内容请参考:python学习指南 urllib2库的基本使用 所谓网页抓取...

  • 学习2/4

    理论学习笔记 Python学习笔记 1、python最具特色的就是使用缩进来表示代码块,不需要使用大括号{}。 2...

  • Python学习

    第二十七天 爬虫学习(二) 1、回顾 网页解析器python中常见的网页解析器:1、正则表达式2、python自带...

网友评论

      本文标题:Python学习笔记2——认识网页

      本文链接:https://www.haomeiwen.com/subject/messvxtx.html