unicode/utf8包

作者: ljh123 | 来源:发表于2018-09-13 21:34 被阅读7次
    // 编码所需的基本数字
    const (
            RuneError  = '\uFFFD'        // 错误的Rune或Unicode代理字符
            RuneSelf  = 0x80               // ASCII字符范围
            MaxRune = '\U0010FFFF'  // Unicode 码点的最大值
            UTFMax = 4                        // 一个字符编码的最大长度
    )
    
    // 将r转换为UTF-编码写入p中(p必须足够长,通常为4个字节)
    // 如果r是无效的Unicode字符,则写入RuneError
    // 返回写入的字节数
    func EncodeRune(p []byte, r rune) int
    
    // 解码p中的第一个字符,返回解码后的字符和p中被解码的字节数
    // 如果p为空,则返回(RuneError,0)
    // 如果p中的编码无效,则返回(RuneError,1)
    // 无效编码:UTF-8编码不正确(比如长度不够)、结果超出Unicode范围、编码不是最短的
    func DecodeRune(p []byte) (r rune, size int)
    
    // 功能同上,只是参数为字符串
    func DecodeRuneInString(s string) (r rune, size int)
    
    // 解码p的最后一个字符,返回解码后的字符,和p中被解码的字节数
    // 如果p中的最后一个字符,返回解码后的字符,和p中被解码的字节数
    // 如果p为空,则返回(RuneError, 0)
    // 如果p中编码无效,则返回(EuneError, 1)
    func DecodeLastRune(p []byte) (r rune, size int)
    
    // 功能同上,参数为字符串
    func DecodeLastRune(p []byte) (r rune, size int)
    
    // FullRune检测p中第一个字符的UTF-8编码是否完整(完整并不代表有效)。
    // 一个无效的编码也被认为是完整字符,因为它将被转换为一个RuneError字符。
    // 只有“编码有效但长度不够”的字符才被认为是不完整字符。
    // 也就是说,只有截去一个有效字符的一个或多个尾部字节,该字符才算是不完整字符。
    // 举例:
    //       ”好“      是完整字符(首字节无效,可转换为RuneError字符)
    //       ”好“ [1:] 是完整字符(首字节无效,可转换为RuneError字符)
    //        ”好“ [2:] 是完整字符(首字节无效,可转换为RuneError字符)
    //        "好" [:2] 是不完整(编码有效但长度不够)
    //        ”好“ [:1] 是不完整(编码有效但长度不够)
    func FullRune(p []byte) bool
    
    // 功能同上,参数为字符串
    func FullRuneInString(s string) bool
    
    // 返回p中的字符个数
    // 错误的UTF8编码和长度不足的UTF8编码将被当作单字节的RuneError处理
    func RuneCount(p []byte) int
    
    // 功能同上
    func RuneCountInString(s string) (n int)
    
    // Rune返回需要多少字节来编码字符r,如果r是无效的字符,则返回-1
    func RuneLen(r rune) int
    
    // 判断b是否为UTF8字符的首字节编码,最高位(bit)是不是10的字节就是首字节
    func RuneStart(b byte) bool
    
    // Valid判断p是否位完整有效的 UTF8 编码序列
    func Valid(p []byte) bool
    
    // 功能同上,参数为字符串
    func ValidString(s string) bool
    
    // ValidRune 判断r能否被正确的转换为UTF8编码
    // 超出Unicode范围的码带你或UTF-16代理区中的码点是不能转换的
    func ValidRune(r rune) bool
    

    参考:https://www.cnblogs.com/golove/p/3271597.html

    相关文章

      网友评论

        本文标题:unicode/utf8包

        本文链接:https://www.haomeiwen.com/subject/fsjggftx.html