MySQL 5.5字符集与排序规则解析及MySQL 8.0升级优化指南

日期：2024-12-24 08:33:06 作者：创始人浏览：0

mysql5.5服务器支持几种字符集和几个字符序

MySQL5.5支持的字符集和字符序列如下：MySQL5.5支持各种常见字符集，包括Unicode（如utf8和utf8mb4）、西欧字符集（如latin1）、中文字符集（如gbk）和繁体中文字符集（例如h35）。
对于排序规则，MySQL提供了一些常用的选项，比如通用排序规则（utf_general_ci）在比较时不区分大小写（utf_bin），在比较Unicode排序规则（utf_unicode_ci）时也不区分大小写；

mysql如何选择字符集及排序规则?

默认的MySQL8.0字符集已从latin1更改为utf8mb4，这是真正的4字节UTF-8编码，支持所有Unicode字符，包括表情符号、特殊符号和复杂文本。
utf8mb4字符集主要用于需要大量非ASCII字符进行存储和处理的场景，例如国际化应用。
关于比较规则，MySQL8.0中utf8mb4的默认规则为utf8mb4_0900_ai_ci，相比MySQL5.7下的utf8mb4_general_ci，增加了多条新的比较规则，总数从26条增加到89条。
其中，针对标识符0900的规则基于UnicodeCollationAlgorithm(UCA)标准9.0.0，提供更准确和现代的Unicode支持。
ci表示不区分大小写，cs表示区分大小写，he表示不区分重音，cs表示区分重音。
utf8mb4_0900_ai_ci规则不区分大小写和重音。
它遵循更新版本的Unicode标准，更适合国际化和多语言环境。
与utf8mb4_general_ci相比，主要区别在于不忽略尾随空格。
总体而言，MySQL8.0版本中对字符集和排序规则的更改旨在提供更准确和现代的Unicode支持，以及更好的国际化和多语言环境支持。
8.0版本建议保留默认设置，如果从5.7版本迁移或升级，建议保留原有的utf8mb4_general_ci字符集，以避免可能出现的兼容性问题。

MySQL中数据库的默认字符集和校对规则有哪些？

1、ASCII用途：用于映射简单的单字节字符，如：如大小写英文字母、阿拉伯数字、常用标点符号、运算符、控制字符等。
编码范围：U+0000-U+007F注意：对于使用此类字符的场景来说这已经足够了，但不能编码中文和日文字符是如何表达的。
2.UNICODE用途：用于映射包括ASCII在内的所有其他字符。
编码范围：U+0000-U+10FFFF注：ASCII是UNICODE的子集，ASCII编码字符可以无损地转换为UNICODE编码字符。
MySQL常用的字符集1.Latin1Latin1是cp1252或ISO-8859-1的别名。
ISO-8859-1编码是单字节编码，并且向后兼容ASCII。
编码范围：U+0000-U+00FFISO-8859-1，除了ASCII记录的字符外，还包含西欧语言、希腊语、泰语、阿拉伯语和希伯来语的文本符号。
单个字节内的空间被ISO-8859-1编码占用，因此ISO-8859-1编码可以用于存储和传输任何其他编码的字节流。
比如用Latin1存储Utf8mb4编码或者GBK编码都没有问题。
因为Latin1保留了原始字节流，所以MySQL很早就使用Latin1作为默认字符集。
但是，由于Latin1为每个字符存储字节流，因此浪费了字符数。
例如：CHAR(10)CHARACTERSETLATIN1;CHAR(10)CHARACTERSETUTF8这个UTF8字段中存储的字符数是Latin1的三倍！！！2.GB18030GB18030是中国官方标准字符集，向前兼容GBK和GB2312，是这两者的超集。
使用1、2和4个字节分别表示一个符号。
例如，常见的汉字默认以两字节编码存储。
对于Windows系统，默认使用GB18030。
如果只存储汉字，GB18030是最好的解决方案。
这样做的原因有两个：1）占用空间较小，例如比UTF8小。
2)保存的汉字按拼音排序，方便快速检索。
3.UTF8UTF8是Unicode的编码实现，可以存储所有符合UNICODE编码的字符。
这也是最常用的编码。
最大的特点是变长编码方式，用1到4个字节来表示一个符号，字节长度可以根据不同的符号进行编码。
字母或数字需要1个字节，汉字需要3个字节，表情符号需要4个字节。
目前使用最广泛的是UTF8字符集。
观察！MySQL中经常提到的UTF8是UTF8MB3的别名。
UTF8MB3是UTF8MB4的子集，UTF8MB4是真正的4字节UTF8字符集。
UTF8MB3指定最多支持3字节字符，UTF8MB4指定最多支持4字节字符。
基于实际需要和未来前景，MySQL8.0默认使用基本字符集UTF8MB4。

标签： MySQL 字符集