美文网首页
爬虫06day

爬虫06day

作者: 迷路了吗_67f1 | 来源:发表于2019-02-24 19:45 被阅读0次
什么是xpath?

xpath (lxml Path language)是一门在xml文档中查找信息的语言,可以遍历和搜索,xml文档中的文本和属性,同样适用html

什么是xml?

是一门可扩展的编辑语言,是为了传输数据,内部的标签可自定义
xml的结构类似于HTML
安装lxml库:pip3 install lxml

xpath语法的路径表达式(常用)

nodename(节点名称)------获取此节点下所有的子节点
/ -------获取当前节点下的直接子节点
// -------获取当前节点下的节点,不考虑节点位置
. -------获取当前节点
.. -------获取当前节点的父节点
@+属性名--------获取属性

bs4_usod(Beautifulsoup4)?

是python的一个xml和html的解析器,目的是从xml或HTML中提取数据
安装:pip3 install beautifulsoup4

beautifulsoup4比xpath解析数据要慢,因为beautifulsoup4载入的是整个html文档

方法

findall()查找所以节点 findall()查找单个节点
支持CSS选择器
获取标签属性写法:p['class']或p.attrs['class']
获取标签文本:p.get_text()或p.string

注意:使用beautifulsoup需要依赖其他解析器
‘lxml’表示使用的是lxml下的HTML解析器,容错性好,可读性强
‘HTML.parser’是python内置的解析器

参数作用:

name=None ------设置要获取的节点名称
attrs={} ------是一个字典类型,设置标签的属性
limit=None-----限制返回的条数
text(字符串) 查找符合text文本的字符串,并返回。

相关文章

  • 爬虫06day

    什么是xpath? xpath (lxml Path language)是一门在xml文档中查找信息的语言,可以遍...

  • 06day

    表格边框 如需在 CSS 中设置表格边框,请使用 border 属性。下面的例子为 table、th 以及 td ...

  • 前端06day

    opacity属性在IE8及以下的浏览器中不支持IE8及以下的浏览器需要使用如下属性代替alpha(opacity...

  • 网页06day

    background-color:background-color属性用来为元素设置背 景颜色。需要指定一个颜色值...

  • 前端06day

    浮动 display:inlineblock;块元素脱离文档流:,在父元素中浮动起来。宽度占父元素100% 块独占...

  • 前段------06day

    Document *{margin: 0;padding: 0;}ul{l...

  • 11.20-11.26

    本周目标 爬虫 爬虫 爬虫 爬虫

  • 导航条------06day

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

  • 01-认识爬虫

    一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫三角之争 网...

网友评论

      本文标题:爬虫06day

      本文链接:https://www.haomeiwen.com/subject/zlpbyqtx.html