美文网首页
0_1_字符串常用方法以及编码问题

0_1_字符串常用方法以及编码问题

作者: li_coder | 来源:发表于2018-03-26 15:40 被阅读0次

    1. 查找索引和出现次数

    # 查找sub在字符串中出现的位置,并返回
    str.find(sub, start, end)  
    
    # 查找sub在字符串中最后出现的位置(右侧第一个),并返回
    str.rfind(sub, start, end)  
    
    # 功能和str.find()一样,查不到会报错
    str.index(sub, start, end)  
    
    # 功能和str.rfind()一样,查不到会报错
    str.rindex(sub, start, end)  
    
    # 统计sub在字符串中出现的次数,并返回
    str.count(sub,start,end)  
    

    2. 替换、分割、添加

    # 将字符串中的old替换为new,替换count个,返回新字符串
    str.replace(old, new, count)
    
    # 根据字符串中的sep拆分maxsplit次,返回拆分后的列表
    str.split(sep, maxsplit)
    
    # 根据字符串中的换行符分割,返回拆分后的列表
    str.splitlines()
    
    # 将字符串分为三部分,sep前,sep,sep后,返回元组
    str.partition(sep)
    
    # 将列表中的每个元素后都添加字符串内容组成新串,返回
    str.jion(iterable)
    

    3. 大小写转换

    # 将字符串第一个字符大写,其余全部小写,返回新串
    str.capitalize()
    
    # 将字符串的每个单词首字母大写,返回新串
    str.title()
    
    # 将字符串全部变为小写,返回新的字符串
    str.lower()
    
    # 将字符串全部变为大写,返回新的字符串
    str.upper()
    
    

    4. 判断字符

    # 判断字符串是否全为字母
    str.isalpha()
    
    # 判断是否全为数字
    str.isdigit()
    
    # 判断是否只包含字母或者数字
    str.isalnum()
    
    # 判断是否只包含空格
    str.isspace()
    
    # 检查是否以prefix开头,返回布尔值
    str.startswith(prefix, start, end)
    
    # 检查是否以suffix结尾,返回布尔值
    str.endswith(suffix, start, end)
    

    5. 左对齐、右对齐、居中

    # 将字符串左对齐,长度不满width,用fillchar补满
    str.ljust(width, fillchar)
    
    # 将字符串右对齐,长度不满width,用fillchar补满
    str.rjust(width, fillchar)
    
    # 将字符串居中,长度不满width,用fillchar补满
    str.center(width, fillchar)
    

    6. 删除多余字符

    # 删除左侧的字符
    str.lstrip(chars)
    
    # 删除右侧的字符
    str.rstrip(chars)
    
    # 删除两端的字符
    str.strip(chars)
    

    7. 字符串编码

    7.1 ASCII码

    一个字节(byte)占8个二进制位, 每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态.
    上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今.
    ASCII码一共规定了128个字符的编码, 这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。

    英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的,不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样.

    7.2 Unicode

    Unicode,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。
    Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。
    Unicode的问题:
    (1)如何才能区别Unicode和ASCII?
    (2)如果Unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,这对于存储来说是极大的浪费
    它们造成的结果是:
    (1)出现了Unicode的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示Unicode。
    (2)Unicode在很长一段时间内无法推广,直到互联网的出现。

    7.4 UTF-8

    UTF-8就是在互联网上使用最广的一种Unicode的实现方式
    UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。
    规则:
    1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
    2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

    解读UTF-8编码非常简单。如果一个字节的第一位是0,则这个字节单独就是一个字符;如果第一位是1,则连续有多少个1,就表示当前字符占用多少个字节。

    8.1 原始字符串

    原始字符串以r开头,可以在原始字符串中放入任何字符,但不能以反斜线“\”结尾,用来防止反斜线转义.
    原始字符串是用来解决正则表达式和ASCII字符之间的冲突而产生的技术

    8.2 Unicode字符串

    Unicode字符串使用u前缀,就像原始字符串使用r一样.
    注意:在python3中,所有的字符串都是Unicode字符串.

    9. Python2 和 Python3 之间的区别

    在Python3当中,文本字符串类型(使用Unicode数据存储)被命名为 str , 字节字符串类型被命名为 bytes 。一般情况下,实例化一个字符串会得到一个 str 对象 ,Python3默认是Unicode,也就是这个意思。
    如果你想得到bytes,那就在文本之前加上前缀 b , 或者 encode 一下
    所以,很显然,str 对象有一个encode方法,bytes 对象有一个decode方法。

    在Python3中的 str 对象在Python2中叫做 unicode,但 bytes 对象在Python2中叫做 str.
    Python2自作聪明为了对一个unicode对象执行解码而进行的隐式编码

    b.encode('ascii').decode('GBK')
    

    如果你在用2.X,请养成在字符串加上 u 前缀的习惯,统一编码UTF-8,如果windows控制台或者Pycharm控制台依旧出现乱码,那多半是控制台编码不同,改过来就好。

    相关文章

      网友评论

          本文标题:0_1_字符串常用方法以及编码问题

          本文链接:https://www.haomeiwen.com/subject/gedrcftx.html