每一个
Swift
的Character
类型代表一个可扩展的字形群。而一个可扩展的字形群构成了人类可读的单个字符,它由一个或多个(当组合时)Unicode
标量的序列组成。
举个例子,字母 é
可以用单一的 Unicode
标量 é(LATIN SMALL LETTER E WITH ACUTE, 或者 U+00E9)
来表示。然而一个标准的字母 e(LATIN SMALL LETTER E 或者 U+0065)
加上一个急促重音(COMBINING ACTUE ACCENT)
的标量(U+0301)
,这样一对标量就表示了同样的字母 é
。 这个急促重音的标量形象的将 e 转换成了 é。
在这两种情况中,字母é
代表了一个单一的 Swift
的 Character
值,同时代表了一个可扩展的字形群。
- 第一种情况,这个字形群包含一个单一标量;
- 第二种情况,它是包含两个标量的字形群;
let eAcute: Character = "\u{E9}" // é
let combinedEAcute: Character = "\u{65}\u{301}" // e 后面加上 ́
// eAcute 是 é, combinedEAcute 是 é
可扩展的字形集是一个将许多复杂的脚本字符表示为单个字符值的灵活方式
。例如,来自朝鲜语字母表的韩语音节能表示为组合或分解的有序排列。在 Swift
都会表示为同一个单一的Character
值:
let precomposed: Character = "\u{D55C}" // 한
let decomposed: Character = "\u{1112}\u{1161}\u{11AB}" // ᄒ, ᅡ, ᆫ
// precomposed 是 한, decomposed 是 한
可拓展的字符群集
可以使包围记号
(例如 COMBINING ENCLOSING CIRCLE 或者 U+20DD)的标量包围其他 Unicode 标量
,作为一个单一
的 Character 值
:
let enclosedEAcute: Character = "\u{E9}\u{20DD}"
print(enclosedEAcute)
// enclosedEAcute 是 é⃝
地域性指示符号
的 Unicode 标量
可以组合成一个单一的 Character 值
,例如 REGIONAL INDICATOR SYMBOL LETTER U(U+1F1FA)
和 REGIONAL INDICATOR SYMBOL LETTER S(U+1F1F8)
:
let regionalIndicatorForUS: Character = "\u{1F1FA}\u{1F1F8}"
print(regionalIndicatorForUS)
// regionalIndicatorForUS 是 🇺🇸
注意:
可扩展的字形群可以由多个 Unicode 标量组成。这意味着不同的字符以及相同字符的不同表示方式可能需要不同数量的内存空间
来存储。所以 Swift 中的字符在一个字符串中并不一定占用相同的内存空间数量。因此在没有获取字符串的可扩展的字符群的范围时候,就不能计算出字符串的字符数量。如果你正在处理一个长字符串,需要注意count 属性
必须遍历全部的Unicode 标量
,来确定字符串的字符数量。
另外需要注意的是通过count 属性
返回的字符数量并不总是与包含相同字符的 NSString 的length 属性
相同。NSString 的length 属性
是利用UTF-16
表示的十六位代码单元数字,而不是Unicode 可扩展的字符群集
。
网友评论