String是引用类型,它也是一个class,Java编译器对String有特殊处理,即可以直接用"..."来表示一个字符串。实际上String是通过char[]数组来表示的。
常用操作方法
-
字符串比较使用equals(),而不是==,忽略大小比较使用equalsIgnoreCase()。
-
是否包含某个字符串使用contains()
// 是否包含子串:
"Hello".contains("el");
- 搜索子串
// 从前检索返回坐标索引,返回第一次出现的位置 2
"Hello".indexOf("l");
//从后索引返回第一次出现的位置 3
"Hello".lastIndexOf("l");
// 是否以某个字符串开头true
"Hello".startsWith("He");
//是否以某个字符串结尾 true
"Hello".endsWith("lo");
- 提取子串的例子:
// 从给定索引的位置截取到最后包含索引位置"llo"
"Hello".substring(2);
//从给定索引的位置截取到给定结束位置,截取不包含结束位置索引的字符串 "ll"
"Hello".substring(2, 4);
- 去除首尾空白字符(返回新的字符串,字符串不可变)
- 使用trim()方法可以移除字符串首尾空白字符。空白字符包括空格,\t,\r,\n
2.strip()方法也可以移除字符串首尾空白字符。它和trim()不同的是,类似中文的空格字符\u3000也会被移除
- 判断字符串是否为空和空白字符串
// true,因为字符串长度为0
"".isEmpty();
// false,因为字符串长度不为0
" ".isEmpty();
// true,因为只包含空白字符
" \n".isBlank();
// false,因为包含非空白字符
" Hello ".isBlank();
- 替换子串
- 根据字符或字符串替换:
String s = "hello";
s.replace('l', 'o'); // "heooo",所有字符'l'被替换为'o'
s.replace("ll", "v"); // "hevo",所有子串"ll"被替换为"v"
- 通过正则表达式替换:
String s = "A,,B;C ,D";
s.replaceAll("[\,\;\s]+", ","); // "A,B,C,D"
- 分割字符串(也可传入正则表达式)
String s = "A,B,C,D";
String[] ss = s.split(","); // {"A", "B", "C", "D"}
- 拼接字符串
String[] arr = {"A", "B", "C"};
String s = String.join("", arr); // "AB***C"
- 类型转换
- valueOf():
String.valueOf(123); // "123"
- 要把字符串转换为其他类型,就需要根据情况。例如,把字符串转换为int类型:
int n1 = Integer.parseInt("123"); // 123
int n2 = Integer.parseInt("ff", 16); // 按十六进制转换,255
把字符串转换为boolean类型:
boolean b1 = Boolean.parseBoolean("true"); // true
boolean b2 = Boolean.parseBoolean("FALSE"); // false
要特别注意,Integer有个getInteger(String)方法,它不是将字符串转换为int,而是把该字符串对应的系统变量转换为Integer:
Integer.getInteger("java.version"); // 版本号,11
转换为char[]
char[] cs = "Hello".toCharArray(); // String -> char[]
String s = new String(cs); // char[] -> String (通过new String(char[])创建新的String实例时,不会直接引用传入的char[]数组,而是会复制一份,所以修改cs不会改变s)
- 编码转换
- Java使用Unicode编码表示String和char。
- 转换编码就是将String和byte[]转换,需要指定编码:
byte[] b1 = "Hello".getBytes(); // 按系统默认编码转换,不推荐
byte[] b2 = "Hello".getBytes("UTF-8"); // 按UTF-8编码转换
byte[] b3 = "Hello".getBytes("GBK"); // 按GBK编码转换
byte[] b4 = "Hello".getBytes(StandardCharsets.UTF_8); // 按UTF-8编码转换
如需将byte[]转换为String
String s1 = new String(b2, "GBK"); // 按GBK转换
String s2 = new String(3, StandardCharsets.UTF_8);
- Java的String和char在内存中总是以Unicode编码表示,转换为byte[]时,始终优先考虑UTF-8编码。
对于不同版本的JDK,String类在内存中有不同的优化方式。具体来说,早期JDK版本的String总是以char[]存储,它的定义如下:
public final class String {
private final char[] value;
private final int offset;
private final int count;
}
而较新的JDK版本的String则以byte[]存储:如果String仅包含ASCII字符,则每个byte存储一个字符,否则,每两个byte存储一个字符,这样做的目的是为了节省内存,因为大量的长度较短的String通常仅包含ASCII字符:
public final class String {
private final byte[] value;
private final byte coder; //0 = LATIN1, 1 = UTF16
拓展
Java编译器对String做了特殊处理,使得我们可以直接用+拼接字符串,但是,在循环中,每次循环都会创建新的字符串对象,然后扔掉旧的字符串。这样,绝大部分字符串都是临时对象,不但浪费内存,还会影响GC效率。为了能高效拼接字符串,Java标准库提供了StringBuilder,它是一个可变对象,可以预分配缓冲区,这样,往StringBuilder中新增字符时,不会创建新的临时对象:
for (int i = 0; i < 1000; i++) {
sb.append(',');
sb.append(i);
}
链式操作(进行链式操作的关键是,定义的append()方法会返回this):
var sb = new StringBuilder(1024);
sb.append("豆 ")
.append("包")
.append("!")
对于普通的字符串+操作,并不需要我们将其改写为StringBuilder,因为Java编译器在编译时就自动把多个连续的+操作编码为StringConcatFactory的操作。在运行期,StringConcatFactory会自动把字符串连接操作优化为数组复制或者StringBuilder操作。
StringBuffer,这是Java早期的一个StringBuilder的线程安全版本,它通过同步来保证多个线程操作StringBuffer也是安全的,但是同步会带来执行速度的下降。StringBuilder和StringBuffer接口完全相同,现在完全没有必要使用StringBuffer。
分隔符拼接数组的需求很常见,所以Java标准库还提供了一个StringJoiner;String还提供了一个静态方法join(),这个方法在内部使用了StringJoiner来拼接字符串。
网友评论