美文网首页Selenium的自学之路
笔记10-爬虫基础之网页基础

笔记10-爬虫基础之网页基础

作者: 路由心定 | 来源:发表于2019-01-11 13:36 被阅读1次
  • 网页可以分为三大部分--HTML、CSS、JavaScript

1.HTML

  • HTML是用来描述网页的一种语言,全称Hyper Text Markup Language-超文本标记语言

2.CSS

  • HTML定义了网页的结构,但是只有HTML页面的布局不美观,所以CSS出现,全称是Cascading Style Shees-层叠样式表

3.JavaScript

  • JavaScript简称JS,是一种脚本语言

4.网页的结构

<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>This is a Demo</title>
</head>
<body>
<div id="container">
<div class="wrapper">
<h2 class="title">Hello World</h2>
<p class="text">Hello,this is a paragraph.</p>
</div>
</div>
</body>
</html>
  • 开头DOCTYPE定义文档类型为html
  • <meta charset="UTF-8">指定编码方式为UTF-8

5.CSS选择器(Selenium的定位也可以用CSS)

#container:(#)表示id,后面跟id的名称
.wrapper:#(.)表示选择class,后面跟class名称
#container .wrapper p :表示先选择id为container的节点,然后选择其内部的class为wrapper的节点然后再进一步选中其内部为p节点
  • .class(例子:.intro)选择class="intro"的所有节点
  • #id(例子:#firstname)选择id="firstname"的所有节点
  • *(例子:*)选择所有节点‘’
  • element(例子:p)选择所有p节点
  • element,element(例子:div,p)选择所有div节点和所有p节点
    想要了解更多的话可以自行百度

相关文章

网友评论

    本文标题:笔记10-爬虫基础之网页基础

    本文链接:https://www.haomeiwen.com/subject/nqgtdqtx.html