python爬虫 XPath选择器 bs4

python爬虫 XPath选择器 bs4

作者: 现实里的童话xklss | 来源:发表于2018-11-23 07:10 被阅读0次

2019-01-18srcrapy框架xpath和css选择器语
python爬虫 XPath选择器 bs4
Python学习，还在用正则或者bs4做爬虫吗？来试试css选择
Python学习，还在用正则或者bs4做爬虫吗？来试试css选择
Python 爬虫 - Xpath、bs4
爬虫-python-scrapy框架基本命令
scrapy前了解Xpath
python爬虫系列（3）- 网页数据解析（bs4、lxml、J
Scrapyd部署爬虫
Python爬虫(十三)_案例：使用XPath的爬虫

XPath

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。

XML

XML 指可扩展标记语言（EXtensible Markup Language）
XML 是一种标记语言，很类似 HTML
XML 的设计宗旨是传输数据，而非显示数据
XML 的标签需要我们自行定义。
XML 被设计为具有自我描述性。
XML 是 W3C 的推荐标准

XPat开发工具

1.开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)
2.Chrome插件 XPath Helper
3.Firefox插件 XPath Checker

选取节点

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

表达式

notename :查找出html所有标签名为notename的节点
/:表示从根节点开始查找(相对性的)
//:从任意位置匹配出你想要的节点
.: 选取当前节点
..:选取当前节点的父节点
@ :表示选择属性
text():取标签文本内容
notenamep[1]:取标签名为notename的第一个节点
notenamep[last()]:取标签名为notename的最后一个节点
notenamep[last()-1]:取标签名为notename的倒数第二个节点

CSS 选择器：BeautifulSoup4

和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。

抓取工具速度使用难度安装难度
正则最快困难无（内置）
BeautifulSoup 慢最简单简单
lxml 快简单一般

lxml:说明使用的是lxml.html解析器(速度快，容错性也比较高)
html.parser:python自带的html解析器

节点

name=None:可以是一个字符串，可以是一个列表，正则表达式 (标签的名称)
attrs={}:是一个字典，(标签的属性)
text=None:是个字符串，列表，正则表达式 (会查找出所有跟text文本一致的内容)

选择器

使用css选择器
. 点表示类选择器
＃　表示id选择器

相关文章

2019-01-18srcrapy框架xpath和css选择器语
python 爬虫： srcrapy框架xpath和scc选择器语法 Xpath基本语法一、常用的路径表达式： ...
python爬虫 XPath选择器 bs4
XPath XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 ...
Python学习，还在用正则或者bs4做爬虫吗？来试试css选择
之前写的一些爬虫都是用的正则、bs4、xpath做为解析库来实现，如果你对web有所涉及，并且比较喜欢css选择器...
Python学习，还在用正则或者bs4做爬虫吗？来试试css选择
之前写的一些爬虫都是用的正则、bs4、xpath做为解析库来实现，如果你对web有所涉及，并且比较喜欢css选择器...
Python 爬虫 - Xpath、bs4
xpath语法安装谓语选取未知节点例子：轴轴可定义相对于当前节点的节点集。步的语法：轴名称::节点测...
爬虫-python-scrapy框架基本命令
爬虫-python-scrapy框架基本命令创建一个项目抓取页面网页抓取shell XPath（选择器节点）...
scrapy前了解Xpath
写爬虫时候节点选择器可以用xpath，css，beautifulsoup。而我们要介绍的是xpath路径写法。xp...
python爬虫系列（3）- 网页数据解析（bs4、lxml、J
python爬虫系列（3）- 网页数据解析（bs4、lxml、Json库）本文记录解析网页bs4、lxml、Js...
Scrapyd部署爬虫
Scrapyd部署爬虫 Python 如何将字符串转为字典 Facebook 爬虫 Xpath string()提...
Python爬虫(十三)_案例：使用XPath的爬虫
本篇是使用XPath的案例，更多内容请参考:Python学习指南案例：使用XPath的爬虫现在我们用XPath...

网友评论

本文标题：python爬虫 XPath选择器 bs4

本文链接：https://www.haomeiwen.com/subject/egjdqqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|python爬虫 XPath选择器 bs4|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！