美文网首页Python
9、正则表达式与JSON

9、正则表达式与JSON

作者: IT_Freak | 来源:发表于2018-12-24 14:14 被阅读0次

    正则表达式:一个特殊的字符序列,可以帮助检测一个字符串是否与我们所设定的字符序列相匹配。

    功能:可以实现快速检索文本、替换文本的操作。

    • 检测一串数字是否是电话号码
    • 检测一个字符串是否符合e-mail格式
    • 把一个文本里指定的单词替换为另外一个单词
    #不使用正则表达式的操作
    a = 'C|C++|Java|Python'
    #index()函数,如果 'a' 中含有 'Python' 就会返回 'Python' 首个字符的位置,否则报错。
    print(a.index('Python'))
    结果:11
    #同样可以使用 in 函数 
    print('Python' in a)
    结果:True
    
    #用正则表达式处理:
    import re  #正则表达式操作函数集
    
    a = 'C|C++|Java|Python'
    #findall():第一个参数为要查询的字符串,第二个参数为被查询的字符串。
    #函数返回查询到的全部的字符串所构成的列表
    r = re.findall('Python',a) 
    if len(r) > 0:
        print(r)
    else:
        print('No')
    
    结果: ['Python']
    

    元字符与普通字符

    #提取字符串中所有的数字:
    import re
    
    a = 'C2C++4Java7Python6'
    r = re.findall('\d',a)
    print(r)
    
    结果:['2', '4', '7', '6']
    

    \d:表示所有数字
    ‘Python’普通字符,'\d'元字符。

    正则表达式就是由一系列普通字符和元字符组成的。

    #提取字符串中所有的非数字:
    import re
    
    a = 'C2C++4Java7Python6'
    r = re.findall('\D',a)    #\D为非数字
    print(r)
    
    结果:['C', 'C', '+', '+', 'J', 'a', 'v', 'a', 'P', 'y', 't', 'h', 'o', 'n']
    

    字符集

    #判断中间是一个字符c或f的单词:
    import re
    
    s = 'abc,acc,adc,aec,afc,ahc'
    #[]:字符集,或关系
    r = re.findall('a[cf]c',s) 
    print(r)
    
    结果:['acc', 'afc']
    []:字符集,或关系。[cf],c或f
    

    普通字符用于定界,确定某一个小段

    #判断中间是一个不是c或f的字符的单词:
    import re
    
    s = 'abc,acc,adc,aec,afc,ahc'
    r = re.findall('a[^cf]c',s) 
    print(r)
    
    结果:['abc', 'adc', 'aec', 'ahc']
    ^:取反操作
    
    #利用字符顺序省略字符,匹配c,d,e,f:
    import re
    
    s = 'abc,acc,adc,aec,afc,ahc'
    r = re.findall('a[c-f]c',s)
    print(r)
    
    结果:['acc', 'adc', 'aec', 'afc']
    -:省略中间字符
    

    概括字符集

    \d可以用[0-9]表示:
    import re
    
    a = 'python1111java678php'
    r = re.findall('[0-9]',a)
    print(r)
    
    结果:['1', '1', '1', '1', '6', '7', '8']
    
    \w匹配单词字符,也就是[A-Za-z0-9_]
    import re
    
    a = 'python1111&_java678  \nph\rp'
    r = re.findall('\w',a)  #等价于r = re.findall('[A-Za-z0-9_]',a)
    print(r)
    
    结果:['p', 'y', 't', 'h', 'o', 'n', '1', '1', '1', '1', '_', 'j', 'a', 'v', 'a', '6', '7', '8', 'p', 'h', 'p']
    
    • \W 只匹配非单词字符,如空格、&、\n、\r等都为非单词字符。
    • \s 代表空白字符:空格、\n、\r等。
    • \S 匹配所有非空白字符
    import re
    
    a = 'python1111&_java678 \nph\rp'
    r = re.findall('\s',a)
    print(r)
    
    结果:[' ', '\n', '\r']
    

    常用的概括字符集:\d \D \w \W \s \S
    '.' 匹配除换行符\n之外的其他所有字符

    数量词

    匹配三个字母的单词:
    import re
    
    a = 'python1111 java678php'
    r = re.findall('[a-z]{3}',a)
    
    print(r)
    结果:['pyt', 'hon', 'jav', 'php']
    
    匹配完整的单词:
    import re
    
    a = 'python1111 java678php'
    r = re.findall('[a-z]{3,6}',a)  #3,4,5,6个为一组
    print(r)
    
    结果:['python', 'java', 'php']
    
    利用数量词 {} 多次重复
    r = re.findall('[a-z]{3}',a) 也可以写成 r = re.findall('[a-z][a-z][a-z]',a)
    

    贪婪与非贪婪

    数量词有贪婪和非贪婪之分,一般来说Python倾向于贪婪的匹配方式。
    python会尽可能匹配到最大的字符串。

    {number} ?变成非贪婪模式,此时python会匹配最小的字符串
    import re
    
    a = 'python1111 java678php'
    r = re.findall('[a-z]{3,6}?',a)
    print(r)
    
    结果:['pyt', 'hon', 'jav', 'php']
    

    匹配次数

    用*匹配*之前字符0次或者无限多次:
    import re
    
    a = 'pytho0python1pythonn2'
    r = re.findall('python*',a)
    print(r)
    结果:['pytho', 'python', 'pythonn']
    
    用+匹配一次或者无限多次:
    import re
    
    a = 'pytho0python1pythonn2'
    r = re.findall('python+',a)
    print(r)
    结果:['python', 'pythonn']
    
    用?匹配0次或者一次:
    import re
    
    a = 'pytho0python1pythonn2'
    r = re.findall('python?',a)
    print(r)
    
    结果:['pytho', 'python', 'python']
    可以用?来进行去重复的操作。
    

    注意:{3,6}?和 python? 的问号用法不一样。

    边界匹配符

    QQ号的位数是否符合4-8位:
    import re
    
    qq = '10000004531'
    r = re.findall('^\d{4,8}$',qq)
    print(r)
    
    结果:[]
    ^, $ 组成边界匹配符
    ^:从字符串开头开始匹配
    $:从字符串末尾开始匹配
    
    000$:匹配最后三位是000,^000:匹配开始三位是000
    

    python字符串是否重复出现三次:
    import re
    
    a = 'pythonpythonpythonpythonpython'
    r = re.findall('(python){3}',a)
    print(r)
    
    结果:['python']
    () 对应一组字符
    

    [ ]里的字符是 或关系,[A-Z]表示匹配一个字符是否为大写字母
    ()里的字符是 且关系,(A-Z)表示匹配一个字符串 'abcd...xyz'

    匹配模式参数

    re.findall()的第三个参数为模式

    忽略大小写:
    import re
    
    a = 'pythonC#\nJavaPHP'
    r = re.findall('c#',a, re.I | re.S)
    print(r)
    
    结果:['C#']
    re.I:忽略大小写
    re.S:匹配包括\n在内的任意字符
    多个模式之间用 '|' ,这里的 '|' 是且的关系。
    

    re.sub正则替换

    re.sub(), 五个参数(要替换的匹配表达式,替换成的字符串,被替换的字符串,替换次数,替换模式)

    查找并替换:
    import re
    
    a = 'PythonC#\nJavaPHP'
    r = re.sub('C#','GO',a,0)    
    #0:把所有的C#换成GO,1:只有第一个匹配到的被替换成GO
    print(r)
    
    结果:PythonGO
         JavaPHP
    
    常规替换可以使用replace函数:
    import re
    
    a = 'PythonC#\nJavaPHP'
    a = a.replace('C#','GO')    #是sub的简化版,替换所以的C# 为 GO
    print(a)
    
    结果:PythonGO
         JavaPHP
    
    sub强大的地方在于其第二个参数可以是一个函数:
    import re
    
    def convert(value):
        #此时的value是一个JSON格式,包含了字符串的其他信息
        matched = value.group()    #从对象中提取字符串
        return '!!' + matched + '!!'
    
    a = 'PythonC#JavaPHP'
    r = re.sub('C#',convert,a)
    print(r)
    
    结果:Python!!C#!!JavaPHP
    sub匹配到的字符串后会被传到convert函数中,返回新的字符串来替换匹配到的词。
    

    把函数作为参数传递

    找出数字,大于等于6的替换成9,小于6的替换成0:
    import re
    
    def convert(value):
        matched = value.group()
        if int(matched) >= 6:
            return '9'
        else:
            return '0'
    
    s = 'A8C3721D86'
    r = re.sub('\d',convert,s)
    print(r)
    
    结果:A9C0900D99
    使用函数修改字符串的方式很灵活。
    

    search与match函数

    match:从字符串开始的地方开始匹配(首字母开始匹配)。
    search:搜索整个字符串,直到找到第一个满足的结果并返回。

    import re
    
    s = 'A8C3721D86'
    r = re.match('\d',s)
    print(r)
    
    r1 = re.search('\d',s)
    print(r1)
    
    结果 r:None
    
    结果 r1:<re.Match object; span=(1, 2), match='8'>
    r1.group()  返回字符串的值
    r1.span()   返回位置的位置
    
    match和search返回的是对象,且只匹配一次,不会像findall一样匹配所有。
    

    group分组

    提取life和python之间的字符: 
    import re
    
    s = 'life is short,i use python'
    r = re.search('life(.*)python',s)
    print(r.group(0))
    print(r.group(1))
    结果:life is short,i use python
          is short,i use
    
    group(0)是匹配全部内容
    group(1)是只提取中间的部分(看分组的数量,第一个就是1,第n个就是n)
    
    
    import re
    
    s = 'life is short,i use python,i love python'
    r = re.search('life(.*)python(.*)python',s)
    print(r.group(0))
    print(r.group(1))
    print(r.group(2))
    结果 0:life is short,i use python,i love python
    结果 1:is short,i use
    结果 2:,i love
    
    
    r.groups()返回除完整匹配以外的所有结果:
    import re
    
    s = 'life is short,i use python,i love python'
    r = re.search('life(.*)python(.*)python',s)
    print(r.groups())
    结果:(' is short,i use ', ',i love ')
    

    JSON

    JavaScript Object Notation, 是一种轻量级(与XML比)的数据交换格式。
    JSON适合做中间语言,进行跨语言交换数据。

    JSON应用:前后端分离的数据传输
    REST服务的标准格式:JSON。

    字符串是JSON的表现形式,符合JSON格式(类似于Python的字典)的字符串就是JSON字符串。

    反序列化

    反序列化:字符串 -> 语言下某一数据结构的过程

    利用python内部的json解析JSON数据:
    import json
    
    json_str = '{"name":"tai","age":23}'    #json内用双引号,则外部用单引号表示str
    student = json.loads(json_str)  #将json格式的数据转换成python格式的数据
    print(type(student))
    print(student)
    print(student['name'])
    
    结果 type(student):<class 'dict'>    #解析出来是字典
    结果 student:{'name': 'tai', 'age': 23}
    结果 student['name']:tai
    
    
    同样的JSON字符串,不同的语言会装换成不同的类型。其中对应到Python中是字典类型。
    
     
    解析JSON数组:
    import json
    
    json_str = '[{"name":"tai","age":23,"flag":false},{"name":"tai","age":23}]'
    student = json.loads(json_str) 
    print(type(student))
    print(student)
    
    结果 type(student):<class 'list'>    #数组转成了列表
    结果 student:[{'name': 'tai', 'age': 23, 'flag': False}, {'name': 'tai', 'age': 23}] 
    

    json和python的数据转换列表

    JSON Python
    object dict
    array list
    string str
    number int(float)
    true True
    false False
    null None

    序列化:

    import json
    
    student = [{"name":"tai","age":23,"flag":False},{"name":"tai","age":23}]
    json_str = json.dumps(student)  #将python数据类型转换成JSON数据
    print(type(json_str))
    print(json_str)
    
    结果 type(json_str):<class 'str'>
    结果 json_str:[{"name": "tai", "age": 23, "flag": false}, {"name": "tai", "age": 23}]
    

    相关文章

      网友评论

        本文标题:9、正则表达式与JSON

        本文链接:https://www.haomeiwen.com/subject/rmvakqtx.html