美文网首页
Mysql字符集

Mysql字符集

作者: 望望hope | 来源:发表于2020-07-04 00:54 被阅读0次

引言

今天遇到一个问题,我们在设计一个User表时,用户名需要保证唯一,且不区分大小写。开始设计是两个字段user_name(原始值),user_name_upcase(转大写值),这两个字段上都唯一索引。直到有位同学告诉我们可通过一个字段搞定,学习了,学习了。

字符集&校对规则

MySQL提供了字符集(character set)支持,可以使用各种字符集存储数据并根据各种校对规则(collations)进行比较。可以在server, database, table, column 指定字符集和校对规则。

什么是字符集?

简单来说,字符集就是符号和编码的集合。举个例子,假设我们有四个字母A,B,a,b。我们给每一个字符一个数值:A=0,B=1,a=2,b=3。A就是符号,数值0就是A的编码,字符和数字的编码规则的合集就是字符集。

什么是校对规则?

简单来说,是字符之间的比较规则,决定字符相等和排序等。接着上面的例子,比较符号A,B的大小,我们可以简单的认为A < B,因为0 < 1,我们称这种规则为binary collation。但是,当我们需要认为A=a,B=b 即忽略大小写时,我们成为case-insensitive collation。

读懂字符集

查看当前数据库支持哪些字符集(数据库版本8.0)

mysql> SHOW CHARACTER SET;
+----------+---------------------------------+---------------------+--------+
| Charset  | Description                     | Default collation   | Maxlen |
+----------+---------------------------------+---------------------+--------+
| big5     | Big5 Traditional Chinese        | big5_chinese_ci     |      2 |
| binary   | Binary pseudo charset           | binary              |      1 |
...
| latin1   | cp1252 West European            | latin1_swedish_ci   |      1 |
...
| ucs2     | UCS-2 Unicode                   | ucs2_general_ci     |      2 |
...
| utf8     | UTF-8 Unicode                   | utf8_general_ci     |      3 |
| utf8mb4  | UTF-8 Unicode                   | utf8mb4_0900_ai_ci  |      4 |
...

utf8 这个是mysql历史遗留的一个utf8编码字符集,最大长度是3个字节,而真正的utf8编码是最长4个字节。

utf8mb4 真正的utf8编码字符集,可以完美支持所有的utf8编码,推荐使用。

查看utf8mb4支持哪些校对规则

mysql> SHOW COLLATION WHERE Charset = 'utf8mb4';
+----------------------------+---------+-----+---------+----------+---------+---------------+
| Collation                  | Charset | Id  | Default | Compiled | Sortlen | Pad_attribute |
+----------------------------+---------+-----+---------+----------+---------+---------------+
| utf8mb4_0900_ai_ci         | utf8mb4 | 255 | Yes     | Yes      |       0 | NO PAD        |
| utf8mb4_bin                | utf8mb4 |  46 |         | Yes      |       1 | PAD SPACE     |
| utf8mb4_general_ci         | utf8mb4 |  45 |         | Yes      |       1 | PAD SPACE     |
....

校对规则名称后缀含义表

后缀 含义 说明
_ai Accent-insensitive 重音不敏感,多见于德语
_as Accent-sensitive 重音敏感
_ci Case-insensitive 大小写不敏感
_cs Case-sensitive 大小写敏感
_ks Kana-sensitive
_bin Binary 二进制比较

使用字符集

例如,我们创建如下表


CREATE TABLE `test_charset` (
    `id` INT(11) NOT NULL AUTO_INCREMENT,
    `text_bin` VARCHAR(45) COLLATE UTF8MB4_BIN NOT NULL,
    `text_ci` VARCHAR(45) COLLATE UTF8MB4_GENERAL_CI DEFAULT NULL,
    PRIMARY KEY (`id`),
    UNIQUE KEY `uk_text_ci` (`text_ci`)
)  ENGINE=INNODB AUTO_INCREMENT=10 DEFAULT CHARSET=UTF8MB4 COLLATE = UTF8MB4_BIN;

实际上,可以在服务器,数据库,表,字段上使用不同的字符集和校对规则,针对我们这种忽略大小写的需求,可以单独指定该列的校对规则为UTF8MB4_GENERAL_CI。

但是,没有特殊情况,建议还是一个数据库统一用一套配置,多了你自己不心慌吗?

UTF8MB4_GENERAL_CI 实现的源码分析

很好奇mysql里面到底是怎么处理忽略大小写这件事情的,这个就得看下mysql源码了,mysql源码地址:https://github.com/mysql/mysql-server,直接到最后ctype-utf8.cc这个源码文件。

1.png 2.png

通过mysql的源码,我们可以看到mysql服务内部会都转成小写进行比较。

总结

mysql包含的东西太多,多学习吧。

参考文档

https://github.com/mysql/mysql-server/blob/8.0/strings/ctype-utf8.cc
https://dev.mysql.com/doc/refman/8.0/en/charset.html
https://dev.mysql.com/doc/refman/8.0/en/charset-collation-names.html
https://dev.mysql.com/doc/refman/8.0/en/charset-mysql.html

相关文章

  • 字符集与校对规则

    MySQL字符集及校对规则的理解 阅读目录:MySQL的字符集和校对规则 MySQL的字符集 MySQL与字符集 ...

  • MySQL字符排序

    关于MySQL字符集 可以参考文章MySQL字符集 & 重谈MySQL字符集 目录 大小写 比较规则 大小写 _c...

  • Mysql全备、增量备份及恢复

    Mysql字符集 MySQL数据库字符集包括字符集(CHARACTER)和校对规则(COLLATION)两个概念,...

  • MySQL常见问题汇集

    字符集mysql 字符集(CHARACTER SET)和校对集(COLLATE)mysql 中 character...

  • Mysql字符集设置

    mysql字符集编码

  • 八、MySQL字符集

    字符集和排序规则简介   MySQL提供了多种字符集和排序规则选择,其中字符集设置和数据存储以及客户端与MySQL...

  • MySQL乱码问题

    MySQL字符集参数 MySQL参数使用 影响到字符编码的设置 数据库级别的字符集信息使用db.opt来存放字符集...

  • 字符集

    定义 mysql 的字符集包括 字符集 CHARACTER 和 校对规则COLLATION 两个概念 字符集 : ...

  • mysql 字符集设置查看

    1.列出MYSQL支持的所有字符集:SHOW CHARACTER SET; 2.当前MYSQL服务器字符集设置SH...

  • MYSQL字符集设置

    MYSQL的Workbench设置字符集失败,可以用以下命令行方式设置MYSQL字符集: 在my.cnf中设置: ...

网友评论

      本文标题:Mysql字符集

      本文链接:https://www.haomeiwen.com/subject/ayryqktx.html