美文网首页
Swift之可扩展的字形群集

Swift之可扩展的字形群集

作者: GitArtOS | 来源:发表于2020-04-03 22:02 被阅读0次

    每一个SwiftCharacter 类型代表一个可扩展的字形群。而一个可扩展的字形群构成了人类可读的单个字符,它由一个或多个(当组合时)Unicode 标量的序列组成。

    举个例子,字母 é可以用单一的 Unicode标量 é(LATIN SMALL LETTER E WITH ACUTE, 或者 U+00E9)来表示。然而一个标准的字母 e(LATIN SMALL LETTER E 或者 U+0065) 加上一个急促重音(COMBINING ACTUE ACCENT)的标量(U+0301),这样一对标量就表示了同样的字母 é这个急促重音的标量形象的将 e 转换成了 é

    在这两种情况中,字母é 代表了一个单一的 SwiftCharacter值,同时代表了一个可扩展的字形群

    • 第一种情况,这个字形群包含一个单一标量;
    • 第二种情况,它是包含两个标量的字形群;
    let eAcute: Character = "\u{E9}"                         // é
    let combinedEAcute: Character = "\u{65}\u{301}"          // e 后面加上  ́
    // eAcute 是 é, combinedEAcute 是 é
    

    可扩展的字形集是一个将许多复杂的脚本字符表示为单个字符值的灵活方式。例如,来自朝鲜语字母表的韩语音节能表示为组合或分解的有序排列。在 Swift 都会表示为同一个单一的Character 值:

    let precomposed: Character = "\u{D55C}"                  // 한
    let decomposed: Character = "\u{1112}\u{1161}\u{11AB}"   // ᄒ, ᅡ, ᆫ
    // precomposed 是 한, decomposed 是 한
    

    可拓展的字符群集可以使包围记号(例如 COMBINING ENCLOSING CIRCLE 或者 U+20DD)的标量包围其他 Unicode 标量,作为一个单一Character 值

    let enclosedEAcute: Character = "\u{E9}\u{20DD}"
    print(enclosedEAcute)
    // enclosedEAcute 是 é⃝
    

    地域性指示符号Unicode 标量可以组合成一个单一的 Character 值,例如 REGIONAL INDICATOR SYMBOL LETTER U(U+1F1FA)和 REGIONAL INDICATOR SYMBOL LETTER S(U+1F1F8)

    let regionalIndicatorForUS: Character = "\u{1F1FA}\u{1F1F8}"
    print(regionalIndicatorForUS)
    // regionalIndicatorForUS 是 🇺🇸
    

    注意:
    可扩展的字形群可以由多个 Unicode 标量组成。这意味着不同的字符以及相同字符的不同表示方式可能需要不同数量的内存空间来存储。所以 Swift 中的字符在一个字符串中并不一定占用相同的内存空间数量。因此在没有获取字符串的可扩展的字符群的范围时候,就不能计算出字符串的字符数量。如果你正在处理一个长字符串,需要注意count 属性必须遍历全部的 Unicode 标量,来确定字符串的字符数量。
    另外需要注意的是通过 count 属性返回的字符数量并不总是与包含相同字符的 NSString 的 length 属性相同。NSString 的length 属性是利用 UTF-16 表示的十六位代码单元数字,而不是Unicode 可扩展的字符群集

    相关文章

      网友评论

          本文标题:Swift之可扩展的字形群集

          本文链接:https://www.haomeiwen.com/subject/awelphtx.html