re模块、xpath

作者: zy小太阳 | 来源:发表于2018-12-30 19:27 被阅读0次

re模块、xpath
Re、Xpath、Beautiful、PyQuery、
lxml模块
21.Python之re模块
XPath语法和lxml模块
数据提取-XPath语法和lxml模块
实例带你快速入门XPath语法和lxml模块
09-数据提取-xpath和lxml模块
python BeautifualSoup使用
python（学会正则走天下）

re模块的高级用法

search:

search 方法用于查找字符串的任何位置，它也是一次匹配，只要找到了一个匹配的结果就返回，而不是查找所有匹配的结果，它的一般使用形式如下：

当匹配成功时，返回一个 Match 对象，如果没有匹配上，则返回 None。

需求：匹配出文章阅读的次数

 #coding=utf-8
import re

 ret = re.search(r"\d+", "阅读次数为 9999")
ret.group()

运行结果：

'9999'

findall

上面的 match 和 search 方法都是一次匹配，只要找到了一个匹配的结果就返回。然而，在大多数时候，我们需要搜索整个字符串，获得所有匹配的结果。

findall 方法的使用形式如下：

findall 以列表形式返回全部能匹配的子串，如果没有匹配，则返回一个空列表。

需求：统计出python、c、c++相应文章阅读的次数

#coding=utf-8
import re

ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
print(ret)

运行结果：

['9999', '7890', '12345']

sub

sub 方法用于替换。它的使用形式如下：

需求：将匹配到的阅读次数加1

方法1：

#coding=utf-8
import re

ret = re.sub(r"\d+", '998', "python = 997")
print(ret)

运行结果：

python = 998
方法2：

#coding=utf-8
import re

def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)

ret = re.sub(r"\d+", add, "python = 997")  
print(ret)

ret = re.sub(r"\d+", add, "python = 99")
print(ret)

运行结果：

python = 998
python = 100

split

根据匹配进行切割字符串，并返回一个列表

需求：切割字符串“info:xiaoZhang 33 shandong”

#coding=utf-8
import re

ret = re.split(r":| ","info:xiaoZhang 33 shandong")
print(ret)

运行结果：

['info', 'xiaoZhang', '33', 'shandong']

finditer

finditer方法的行为跟 findall 的行为类似，也是搜索整个字符串，获得所有匹配的结果。但它返回一个顺序访问每一个匹配结果（Match 对象）的迭代

import re
ret = re.finditer('ha',baseStr)
print(type(ret))  
print(ret)

for item in ret:
    print(type(item))
    print(item.group())

结果： <class 'callable_iterator'> <callable_iterator object at 0x7fb06cc15828> <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha

xpath

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。

XML 指可扩展标记语言（EXtensible Markup Language）
XML 是一种标记语言，很类似 HTML
XML 的设计宗旨是传输数据，而非显示数据
XML 的标签需要我们自行定义。
XML 被设计为具有自我描述性。
XML 是 W3C 的推荐标准

具体使用请见[多线程]

网友评论

本文标题：re模块、xpath

本文链接：https://www.haomeiwen.com/subject/hotblqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

re模块、xpath

re模块的高级用法

search:

findall

sub

split

finditer

xpath

相关文章

re模块、xpath

Re、Xpath、Beautiful、PyQuery、

lxml模块

21.Python之re模块

XPath语法和lxml模块

数据提取-XPath语法和lxml模块

实例带你快速入门XPath语法和lxml模块

09-数据提取-xpath和lxml模块

python BeautifualSoup使用

python（学会正则走天下）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读