美文网首页
3.3.2 各种引用的记法

3.3.2 各种引用的记法

作者: 马小跳_ | 来源:发表于2018-12-17 20:52 被阅读16次

    根据前面的介绍,对分组的引用可能出现在三种场合:

    • 在匹配完之后,用group(num)之类的方法提取数据
    • 在进行正则表达式替换时,用\num引用
    • 在正则表达式内部,用\num引用

    但是使用\num,有可能遇到二义性的问题:如果出现了\10,它表示第10个捕获分组的引用?还是第一个捕获分组\1后跟着一个字符0

    例3-28 可能具有二义性的反向引用

    re.sub(r'(\d)', r'\10', '123')
    # sre_constants.error: invalid group reference
    

    原来\10会被解释成“第10个捕获分组匹配的文本”,而不是“第一个捕获分组匹配的文本之后加上字符0”。如果我们希望做到后面这种情况,python提供了\g<num>表示法,将\10改写成\g<1>0,避免了二义性的问题。

    例3-29 使用\g<num>消除二义性

    re.sub(r'(\d)', r'\g<1>m', '123')  # 1m2m3m
    

    PHP中也有专门的记法解决这类问题,在替换时可以使用\${num}的写法,准确标注所引用分组的编号,也就是说\${1}0表示“第一个捕获分组之后加上0”,${10}表示“第10个捕获分组”。而$10,在第10和捕获分组存在的情况下,表示该分组;否则视为空字符串。

    Python和PHP中的规定明确,所以避免了\num的二义性;其他语言却不是如此,根据它们的文档,引用捕获分组只有\num(或$num)一种记法,这时\10的二义性就无法避免了。

    比如Java对\num中对num是这样定义的:**如果是一位数,则引用对应的捕获分组;如果是两位数且存在对应的捕获分组时,引用对应的捕获分组,否则引用一位数编号的捕获分组。

    相关文章

      网友评论

          本文标题:3.3.2 各种引用的记法

          本文链接:https://www.haomeiwen.com/subject/juqhkqtx.html