字符串 String
多行字符串字面量 """
let quotation = """
The White Rabbit put on his spectacles. "Where shall I begin,
please your Majesty?" he asked.
"Begin at the beginning," the King said gravely, "and go on
till you come to the end; then stop."
"""
在行尾写一个反斜杠(\
)作为续行符。
let softWrappedQuotation = """
The White Rabbit put on his spectacles. "Where shall I begin, \
please your Majesty?" he asked.
"""
为了让一个多行字符串字面量开始和结束于换行符,请将换行写在第一行和最后一行,例如:
let lineBreaks = """
This string starts with a line break.
It also ends with a line break.
"""
匹配缩进,关闭引号("""
)之前的空白字符串告诉Swift编译器其他各行多少空白字符串需要忽略。如果你在某行的前面写的空白字符串超出了关闭引号("""
)之前的空白字符串,则超出部分将被包含在多行字符串字面量中。
![](https://img.haomeiwen.com/i2054377/11de9c7a54da4dcf.png)
字符串字面量的特殊字符
字符串字面量可以包含以下特殊字符:
- 转义字符
\0
(空字符)、\\
(反斜线)、\t
(水平制表符)、\n
(换行符)、\r
(回车符)、\"
(双引号)、\'
(单引号)。 - Unicode 标量,写成
\u{n}
(u为小写),其中n
为任意一到八位十六进制数且可用的 Unicode 位码。
下面的代码为各种特殊字符的使用示例。
wiseWords
常量包含了两个双引号。
dollarSign
、blackHeart
和sparklingHeart
常量演示了三种不同格式的 Unicode 标量:
let wiseWords = "\"xxx xxxx\" - Einstein" // "xxx xxxx" - Enistein
let dollarSign = "\u{24}" // $,Unicode 标量 U+0024
let blackHeart = "\u{2665}" // ♥,Unicode 标量 U+2665
let sparklingHeart = "\u{1F496}" // 💖,Unicode 标量 U+1F496
多行字符串"""
中,可以直接使用双引号("
)而不必加上转义符(\
)。要使用 """
的话,需要使用至少一个转义符(\
):
let threeDoubleQuotes = """
Escaping the first quote \"""
Escaping all three quotes \"\"\"
"""
初始化空字符串
初始化一个String
实例:
var emptyString = "" // 空字符串字面量
var anotherEmptyString = String() // 初始化方法
// 两个字符串均为空并等价。
可以通过检查其Bool
类型的isEmpty
属性来判断该字符串是否为空:
if emptyString.isEmpty {
print("Nothing to see here")
}
// 打印输出:"Nothing to see here"
使用字符 Character
let exclamationMark: Character = "!"
字符串可以通过传递一个值类型为Character
的数组作为自变量来初始化:
let catCharacters: [Character] = ["C", "a", "t", "!", "🐱"]
let catString = String(catCharacters)
print(catString)
// 打印输出:"Cat!🐱"
连接字符串和字符
通过加法运算符(+
)(+=
)创建一个新的字符串:
let string1 = "hello"
let string2 = " there"
var welcome = string1 + string2
// welcome 现在等于 "hello there"
var instruction = "look over"
instruction += string2
// instruction 现在等于 "look over there"
您可以用append()
方法将一个字符附加到一个字符串变量的尾部:
let exclamationMark: Character = "!"
welcome.append(exclamationMark)
// welcome 现在等于 "hello there!"
注意:
您不能将一个字符串或者字符添加到一个已经存在的字符变量上,因为字符变量只能包含一个字符。
如果你需要使用多行字符串字面量来拼接字符串,并且你需要字符串每一行都以换行符结尾,包括最后一行:
let badStart = """
one
two
"""
let end = """
three
"""
print(badStart + end)
// 打印两行:
// one
// twothree
let goodStart = """
one
two
"""
print(goodStart + end)
// 打印三行:
// one
// two
// three
字符串插值
字符串插值 \()
let multiplier = 3
let message = "\(multiplier) times 2.5 is \(Double(multiplier) * 2.5)"
// message 是 "3 times 2.5 is 7.5"
注意:
插值字符串中写在括号中的表达式不能包含非转义反斜杠 (\
),并且不能包含回车或换行符。不过,插值字符串可以包含其他字面量。
Unicode
Unicode是一个国际标准,用于文本的编码和表示。
Swift 的String
和Character
类型是完全兼容 Unicode 标准的。
Unicode 标量
Swift 的String
类型是基于 Unicode 标量 建立的。
Unicode 标量是对应字符或者修饰符的唯一的21位数字,例如U+0061
表示小写的拉丁字母(LATIN SMALL LETTER A
)("a
"),U+1F425
表示小鸡表情(FRONT-FACING BABY CHICK
) ("🐥
")。
注意:
Unicode 码位(code poing) 的范围是U+0000
到U+D7FF
或者U+E000
到U+10FFFF
。Unicode 标量不包括 Unicode 代理项(surrogate pair) 码位,其码位范围是U+D800
到U+DFFF
。
注意不是所有的21位 Unicode 标量都代表一个字符,因为有一些标量是留作未来分配的。已经代表一个典型字符的标量都有自己的名字,例如上面例子中的LATIN SMALL LETTER A
和FRONT-FACING BABY CHICK
。
可扩展的字形群集
每一个 Swift 的Character
类型代表一个可扩展的字形群。
一个可扩展的字形群是一个或多个可生成人类可读的字符 Unicode 标量的有序排列。
举个例子,字母é
可以用单一的 Unicode 标量é
(LATIN SMALL LETTER E WITH ACUTE
, 或者U+00E9
)来表示。然而一个标准的字母e
(LATIN SMALL LETTER E
或者U+0065
) 加上一个急促重音(COMBINING ACTUE ACCENT
)的标量(U+0301
),这样一对标量就表示了同样的字母é
。
这个急促重音的标量形象的将e
转换成了é
。
在这两种情况中,字母é
代表了一个单一的 Swift 的Character
值,同时代表了一个可扩展的字形群。
在第一种情况,这个字形群包含一个单一标量;而在第二种情况,它是包含两个标量的字形群:
let eAcute: Character = "\u{E9}" // é
let combinedEAcute: Character = "\u{65}\u{301}" // e 后面加上 ́
// eAcute 是 é, combinedEAcute 是 é
可扩展的字符群集是一个灵活的方法,用许多复杂的脚本字符表示单一的Character
值。
例如,来自朝鲜语字母表的韩语音节能表示为组合或分解的有序排列。
在 Swift 都会表示为同一个单一的Character
值:
let precomposed: Character = "\u{D55C}" // 한
let decomposed: Character = "\u{1112}\u{1161}\u{11AB}" // ᄒ, ᅡ, ᆫ
// precomposed 是 한, decomposed 是 한
可拓展的字符群集可以使包围记号(例如COMBINING ENCLOSING CIRCLE
或者U+20DD
)的标量包围其他 Unicode 标量,作为一个单一的Character
值:
let enclosedEAcute: Character = "\u{E9}\u{20DD}"
// enclosedEAcute 是 é⃝
地域性指示符号的 Unicode 标量可以组合成一个单一的Character
值,例如REGIONAL INDICATOR SYMBOL LETTER U
(U+1F1FA
)和REGIONAL INDICATOR SYMBOL LETTER S
(U+1F1F8
):
let regionalIndicatorForUS: Character = "\u{1F1FA}\u{1F1F8}"
// regionalIndicatorForUS 是 🇺🇸
计算字符数量
如果想要获得一个字符串中Character
值的数量,可以使用count
属性:
let unusualMenagerie = "Koala 🐨, Snail 🐌, Penguin 🐧, Dromedary 🐪"
print("unusualMenagerie has \(unusualMenagerie.count) characters")
// 打印输出 "unusualMenagerie has 40 characters"
注意在 Swift 中,使用可拓展的字符群集作为Character
值来连接或改变字符串时,并不一定会更改字符串的字符数量。
例如,如果你用四个字符的单词cafe
初始化一个新的字符串,然后添加一个COMBINING ACTUE ACCENT
(U+0301
)作为字符串的结尾。最终这个字符串的字符数量仍然是4
,因为第四个字符是é
,而不是e
:
var word = "cafe"
print("the number of characters in \(word) is \(word.count)")
// 打印输出 "the number of characters in cafe is 4"
word += "\u{301}" // 拼接一个重音,U+0301
print("the number of characters in \(word) is \(word.count)")
// 打印输出 "the number of characters in café is 4"
注意:
可扩展的字符群集可以组成一个或者多个 Unicode 标量。这意味着不同的字符以及相同字符的不同表示方式可能需要不同数量的内存空间来存储。所以 Swift 中的字符在一个字符串中并不一定占用相同的内存空间数量。因此在没有获取字符串的可扩展的字符群的范围时候,就不能计算出字符串的字符数量。如果您正在处理一个长字符串,需要注意count
属性必须遍历全部的 Unicode 标量,来确定字符串的字符数量。另外需要注意的是通过
count
属性返回的字符数量并不总是与包含相同字符的NSString
的length
属性相同。NSString
的length
属性是利用 UTF-16 表示的十六位代码单元数字,而不是 Unicode 可扩展的字符群集。
访问和修改字符串
你可以通过字符串的属性和方法来访问和修改它,当然也可以用下标语法完成。
字符串索引
每一个String
值都有一个关联的索引(index)类型,String.Index
,它对应着字符串中的每一个Character
的位置。
不同的字符可能会占用不同数量的内存空间,所以要知道Character
的确定位置,就必须从String
开头遍历每一个 Unicode 标量直到结尾。因此,Swift 的字符串不能用整数(integer)做索引。
startIndex
: 获取String
的第一个Character
的索引
endIndex
: 获取最后一个Character
的后一个位置的索引
endIndex
属性不能作为一个字符串的有效下标。如果String
是空串,startIndex
和endIndex
是相等的。
index(before:)
、index(after:)
得到前面或后面的一个索引
index(_:offsetBy:)
获取对应偏移量的索引
使用下标语法来访问 String
特定索引的 Character
。
let greeting = "Guten Tag!"
greeting[greeting.startIndex] // G
greeting[greeting.index(before: greeting.endIndex) // !
greeting[greeting.index(after: greeting.startIndex)] // u
let index = greeting.index(greeting.startIndex, offsetBy: 7)
greeting[index] // a
试图获取越界索引对应的 Character
,将引发一个运行时错误。
greeting[greeting.endIndex] // error
greeting.index(after: endIndex) // error
indices
属性会创建一个包含全部索引的范围(Range
),用来在一个字符串中访问单个字符。
for index in greeting.indices {
print("\(greeting[index]) ", terminator: "")
}
// 打印输出 "G u t e n T a g ! "
注意:
您可以使用startIndex
和endIndex
属性或者index(before:)
、index(after:)
和index(_:offsetBy:)
方法在任意一个确认的并遵循Collection
协议的类型里面,如上文所示是使用在String
中,您也可以使用在Array
、Dictionary
和Set
中。
插入和删除
insert(_:at:)
可以在一个字符串的指定索引插入一个字符 insert(contentsOf:at:)
可以在一个字符串的指定索引插入一个段字符串。
var welcome = "hello"
welcome.insert("!", at: welcome.endIndex)
// welcome 变量现在等于 "hello!"
welcome.insert(contentsOf:" there", at: welcome.index(before: welcome.endIndex))
// welcome 变量现在等于 "hello there!"
remove(at:)
可以在一个字符串的指定索引删除一个字符
removeSubrange(_:)
可以在一个字符串的指定索引删除一个子字符串。
welcome.remove(at: welcome.index(before: welcome.endIndex))
// welcome 现在等于 "hello there"
let range = welcome.index(welcome.endIndex, offsetBy: -6)..<welcome.endIndex
welcome.removeSubrange(range)
// welcome 现在等于 "hello"
注意:
您可以使用insert(_:at:)
、insert(contentsOf:at:)
、remove(at:)
和removeSubrange(_:)
方法在任意一个确认的并遵循RangeReplaceableCollection
协议的类型里面,如上文所示是使用在String
中,您也可以使用在Array
、Dictionary
和Set
中。
子字符串
当你从字符串中获取一个子字符串 —— 例如,使用下标或者 prefix(_:)
之类的方法 —— 就可以得到一个 SubString
的实例,而非另外一个 String
。Swift 里的 SubString
绝大部分函数都跟 String
一样,意味着你可以使用同样的方式去操作 SubString
和 String
。然而,跟 String
不同的是,你只有在短时间内需要操作字符串时,才会使用 SubString
。当你需要长时间保存结果时,就把 SubString
转化为 String
的实例:
let greeting = "Hello, world!"
let index = greeting.index(of: ",") ?? greeting.endIndex
let beginning = greeting[..<index]
// beginning 的值为 "Hello"
// 把结果转化为 String 以便长期存储。
let newString = String(beginning)
每一个 SubString
都会在内存里保存字符集。 String
和 SubString
的区别在于性能优化上,SubString
可以重用原 String
的内存空间,或者另一个 SubString
的内存空间(String
也有同样的优化,但如果两个 String
共享内存的话,它们就会相等)。这一优化意味着你在修改 String
和 SubString
之前都不需要消耗性能去复制内存。就像前面说的那样,SubString
不适合长期存储 —— 因为它重用了原 String
的内存空间,原 String
的内存空间必须保留直到它的 SubString
不再被使用为止。
上面的例子,greeting
是一个 String
,意味着它在内存里有一片空间保存字符集。而由于 beginning
是 greeting
的 SubString
,它重用了 greeting
的内存空间。相反,newString
是一个 String
—— 它是使用 SubString
创建的,拥有一片自己的内存空间。下面的图展示了他们之间的关系:
[图片上传失败...(image-284d8f-1522648479355)]
注意
String
和SubString
都遵循StringProtocol<//apple_ref/swift/intf/s:s14StringProtocolP>
协议,这意味着操作字符串的函数使用StringProtocol
会更加方便。你可以传入String
或SubString
去调用函数。
比较字符串
Swift 提供了三种方式来比较文本值:字符串字符相等、前缀相等和后缀相等。
字符串/字符相等
字符串/字符可以用等于操作符(==
)和不等于操作符(!=
)
let quotation = "We're a lot alike, you and I."
let sameQuotation = "We're a lot alike, you and I."
if quotation == sameQuotation {
print("These two strings are considered equal")
}
// 打印输出 "These two strings are considered equal"
如果两个字符串(或者两个字符)的可扩展的字形群集是标准相等的,那就认为它们是相等的。即使可扩展的字形群集是不同的 Unicode 标量构成的,只要它们有同样的语言意义和外观,就认为它们标准相等。
// "Voulez-vous un café?" 使用 LATIN SMALL LETTER E WITH ACUTE
let eAcuteQuestion = "Voulez-vous un caf\u{E9}?"
// "Voulez-vous un café?" 使用 LATIN SMALL LETTER E and COMBINING ACUTE ACCENT
let combinedEAcuteQuestion = "Voulez-vous un caf\u{65}\u{301}?"
if eAcuteQuestion == combinedEAcuteQuestion {
print("These two strings are considered equal")
}
// 打印输出 "These two strings are considered equal"
相反,英语中的LATIN CAPITAL LETTER A
(U+0041
,或者A
)不等于俄语中的CYRILLIC CAPITAL LETTER A
(U+0410
,或者A
)。两个字符看着是一样的,但却有不同的语言意义:
let latinCapitalLetterA: Character = "\u{41}"
let cyrillicCapitalLetterA: Character = "\u{0410}"
if latinCapitalLetterA != cyrillicCapitalLetterA {
print("These two characters are not equivalent")
}
// 打印 "These two characters are not equivalent"
注意:
在 Swift 中,字符串和字符并不区分地域(not locale-sensitive)。
前缀/后缀相等
hasPrefix(_:)
/hasSuffix(_:)
方法来检查字符串是否拥有特定前缀/后缀,两个方法均接收一个String
类型的参数,并返回一个布尔值。
let str = "Act 1 Scene 1: Verona, A public place";
if str.hasSuffix("Act") {
//true
}
if str.hasSuffix("place") {
//true
}
注意:
hasPrefix(_:)
和hasSuffix(_:)
方法都是在每个字符串中逐字符比较其可扩展的字符群集是否标准相等。
字符串的 Unicode 表示形式
当一个 Unicode 字符串被写进文本文件或者其他储存时,字符串中的 Unicode 标量会用 Unicode 定义的几种编码格式
(encoding forms)编码。每一个字符串中的小块编码都被称代码单元
(code units)。这些包括 UTF-8 编码格式(编码字符串为8位的代码单元), UTF-16 编码格式(编码字符串位16位的代码单元),以及 UTF-32 编码格式(编码字符串32位的代码单元)。
Swift 提供了几种不同的方式来访问字符串的 Unicode 表示形式。
您可以利用for-in
来对字符串进行遍历,从而以 Unicode 可扩展的字符群集的方式访问每一个Character
值。
另外,能够以其他三种 Unicode 兼容的方式访问字符串的值:
- UTF-8 代码单元集合 (利用字符串的
utf8
属性进行访问) - UTF-16 代码单元集合 (利用字符串的
utf16
属性进行访问) - 21位的 Unicode 标量值集合,也就是字符串的 UTF-32 编码格式 (利用字符串的
unicodeScalars
属性进行访问)
下面由D
,o
,g
,‼
(DOUBLE EXCLAMATION MARK
, Unicode 标量 U+203C
)和🐶
(DOG FACE
,Unicode 标量为U+1F436
)组成的字符串中的每一个字符代表着一种不同的表示:
let dogString = "Dog‼🐶"
UTF-8 表示
您可以通过遍历String
的utf8
属性来访问它的UTF-8
表示。
其为String.UTF8View
类型的属性,UTF8View
是无符号8位 (UInt8
) 值的集合,每一个UInt8
值都是一个字符的 UTF-8 表示:
![](https://img.haomeiwen.com/i2054377/1f0da27ff4666eee.png)
for codeUnit in dogString.utf8 {
print("\(codeUnit) ", terminator: "")
}
print("")
// 68 111 103 226 128 188 240 159 144 182
上面的例子中,前三个10进制codeUnit
值 (68
, 111
, 103
) 代表了字符D
、o
和 g
,它们的 UTF-8 表示与 ASCII 表示相同。
接下来的三个10进制codeUnit
值 (226
, 128
, 188
) 是DOUBLE EXCLAMATION MARK
的3字节 UTF-8 表示。
最后的四个codeUnit
值 (240
, 159
, 144
, 182
) 是DOG FACE
的4字节 UTF-8 表示。
UTF-16 表示
您可以通过遍历String
的utf16
属性来访问它的UTF-16
表示。
其为String.UTF16View
类型的属性,UTF16View
是无符号16位 (UInt16
) 值的集合,每一个UInt16
都是一个字符的 UTF-16 表示:
![](https://img.haomeiwen.com/i2054377/9e3570ad7e44d5b6.png)
for codeUnit in dogString.utf16 {
print("\(codeUnit) ", terminator: "")
}
print("")
// 68 111 103 8252 55357 56374
同样,前三个codeUnit
值 (68
, 111
, 103
) 代表了字符D
、o
和g
,它们的 UTF-16 代码单元和 UTF-8 完全相同(因为这些 Unicode 标量表示 ASCII 字符)。
第四个codeUnit
值 (8252
) 是一个等于十六进制203C
的的十进制值。这个代表了DOUBLE EXCLAMATION MARK
字符的 Unicode 标量值U+203C
。这个字符在 UTF-16 中可以用一个代码单元表示。
第五和第六个codeUnit
值 (55357
和56374
) 是DOG FACE
字符的 UTF-16 表示。
第一个值为U+D83D
(十进制值为55357
),第二个值为U+DC36
(十进制值为56374
)。
Unicode 标量表示
您可以通过遍历String
值的unicodeScalars
属性来访问它的 Unicode 标量表示。
其为UnicodeScalarView
类型的属性,UnicodeScalarView
是UnicodeScalar
类型的值的集合。
UnicodeScalar
是21位的 Unicode 代码点。
每一个UnicodeScalar
拥有一个value
属性,可以返回对应的21位数值,用UInt32
来表示:
![](https://img.haomeiwen.com/i2054377/c9d44f529614072a.png)
for scalar in dogString.unicodeScalars {
print("\(scalar.value) ", terminator: "")
}
print("")
// 68 111 103 8252 128054
前三个UnicodeScalar
值(68
, 111
, 103
)的value
属性仍然代表字符D
、o
和g
。
第四个codeUnit
值(8252
)仍然是一个等于十六进制203C
的十进制值。这个代表了DOUBLE EXCLAMATION MARK
字符的 Unicode 标量U+203C
。
第五个UnicodeScalar
值的value
属性,128054
,是一个十六进制1F436
的十进制表示。其等同于DOG FACE
的 Unicode 标量U+1F436
。
作为查询它们的value
属性的一种替代方法,每个UnicodeScalar
值也可以用来构建一个新的String
值,比如在字符串插值中使用:
for scalar in dogString.unicodeScalars {
print("\(scalar) ")
}
// D
// o
// g
// ‼
// 🐶
网友评论