爬虫——Web前端知识

作者: weifeng_genius | 来源:发表于2018-08-12 18:21 被阅读1次

    W3C标准

    W3school教程

    1. W3C——万维网联盟,最具权威的技术标准机构。网页主要是由三部分组成:结构(structure)表现(Presentation)行为(Behavior)
      2.结构的标准语言——XHTML、XML
      表现的标准语言——CSS
      行为包括——ECMAScript(JS的标准)

    HTML

    • 文本标记语言
    • <html>content</html> HTML文档标记,出现在网页开始儿和结束。
    • <head>conten</head> 头文件基本信息,此处的内容不会出现在浏览器中。
    • <meta>content</meta>网页的元信息,存放一些关键词,必须放在<head></head>之中。
    • <body>content<\body> 网页主题部分 里面还有很多·<p> <br> <hr>等标记。
    • <title>content</title> 网页的标题。
      更多标记可以参考W3school教程

    CSS

    • 层叠样式表(Cascading Style Sheets),用于定义如何显示HTML元素。该样式表的目的是为了解决内容与表现分离的问题。
    • HTML中使用CSS的三种做法:
      1.内联样式表:直接写进HTML标记中,使用style属性改变样式。例如:
      <body style = "background-color:green;margin:0;padding:0;"></body>
      2.嵌入样式表:把CSS样式代码写在<style type="text/css"></style>之间,一般放在<head></head>之间。
      3.外部样式表:把CSS代码写在一个css文件中,然后在<head>中使用<link>标记引用过来。例如:
      <link rel="StyleSheet"type="text/css"href="style.css">
    • CSS规则主要构成:CSS选择器和一条或多条声明。
    • CSS选择器有三种定义方式:
    1. HTML标记定义:CSS中定义: p{属性:属性值;……},则p可以成为选择器。
    2. ID选择器:HTML以ID属性来设置ID选择器,在CSS中以#来定义,比如#word{text-align:center;color:red},设置ID为word的元素为居中,颜色为红色。
    3. class选择器:有别于ID选择器,它可以在多个元素中使用。在CSS中以.来表示,例如:.center{text-align:center}将所有拥有center类的HTML元素设为居中。

    JavaScript

    • 两种引用方式:
      1.直接插入代码<script type="text/javascript">alert('hello world')</script>
      2.外部引用js文件:<script src="js/jquery.js"></scrpit>

    XPath

    • XPath是被设计来搜寻XML文档的,不过它也能很好地用在HTML文档中工作。在Python爬虫开发中,经常使用XPath查找提取网页中地信息。

    相关文章

      网友评论

        本文标题:爬虫——Web前端知识

        本文链接:https://www.haomeiwen.com/subject/nwujbftx.html