MySQL排序规则：utf8mb4_general_ci与utf8mb4

MySQL排序规则：utf8mb4_general_ci与utf8mb4_bin详解

元宿six

1. 前言：为什么需要了解这两种排序规则

在MySQL数据库的实际开发中，字符集和排序规则的选择往往被很多开发者忽视，直到出现各种"诡异"的问题才开始重视。我遇到过不止一个案例：开发环境运行正常的SQL语句，到了生产环境突然报错；或者用户搜索"cafe"时找不到"Café"的记录。这些问题的根源大多与排序规则的选择有关。

utf8mb4_general_ci和utf8mb4_bin是MySQL中最常用的两种排序规则（collation），它们决定了字符串如何比较、排序和索引。理解它们的区别不仅有助于避免上述问题，还能帮助我们根据业务需求做出更合理的选择。比如，用户系统通常需要不区分大小写的用户名比较（使用utf8mb4_general_ci），而验证码系统则需要严格区分大小写（使用utf8mb4_bin）。

提示：utf8mb4是MySQL中真正的UTF-8编码，支持完整的Unicode字符（包括emoji），而老旧的utf8实际上是阉割版，最多只支持3字节的UTF-8字符。

2. 核心差异对比

2.1 基本特性对比

让我们先通过一个表格直观了解两种排序规则的主要区别：

特性	utf8mb4_general_ci	utf8mb4_bin
大小写敏感	不区分（A=a）	区分（A≠a）
重音敏感	不区分（a=á）	区分（a≠á）
比较方式	基于Unicode 3.0权重值比较	直接比较二进制编码值
性能	稍慢（需要查权重表）	更快（直接比较二进制）
适用场景	需要语言习惯匹配的场景（如用户搜索）	需要精确匹配的场景（如验证码）

2.2 实际影响范围

这两种排序规则的差异会影响到数据库操作的多个方面：

WHERE条件比较：决定查询条件的匹配规则
DISTINCT操作：决定哪些值被视为重复
GROUP BY分组：决定分组依据
ORDER BY排序：决定排序顺序
UNIQUE约束：决定哪些值被视为唯一
外键关联：决定关联匹配规则

3. 差异示例详解

3.1 测试环境准备

为了具体演示差异，我们先创建两个测试数据库：

sql复制-- 创建使用utf8mb4_general_ci的数据库
CREATE DATABASE test1 CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;

-- 创建使用utf8mb4_bin的数据库
CREATE DATABASE test2 CHARACTER SET utf8mb4 COLLATE utf8mb4_bin;

-- 在两个数据库中创建相同的测试表
USE test1;
CREATE TABLE test (test_name VARCHAR(100));

USE test2;
CREATE TABLE test (test_name VARCHAR(100));

然后向两个表插入相同的测试数据：

sql复制-- 在两个表中插入数据
INSERT INTO test1.test VALUES ('apple'), ('Apple'), ('Ápple');
INSERT INTO test2.test VALUES ('apple'), ('Apple'), ('Ápple');

3.2 查询匹配差异

执行以下查询观察不同：

sql复制-- 在test1(utf8mb4_general_ci)中查询
SELECT * FROM test1.test WHERE test_name = 'apple';

-- 在test2(utf8mb4_bin)中查询
SELECT * FROM test2.test WHERE test_name = 'apple';

结果分析：

在utf8mb4_general_ci下，三条记录都会被返回，因为它不区分大小写和重音
在utf8mb4_bin下，只有完全匹配的'apple'记录会被返回

3.3 索引行为差异

3.3.1 唯一索引场景

sql复制-- 在test1中添加唯一索引
ALTER TABLE test1.test ADD UNIQUE INDEX idx_name (test_name);

-- 尝试插入数据（会失败）
INSERT INTO test1.test VALUES ('apple');  -- 报错Duplicate entry

sql复制-- 在test2中添加唯一索引
ALTER TABLE test2.test ADD UNIQUE INDEX idx_name (test_name);

-- 尝试插入数据（成功）
INSERT INTO test2.test VALUES ('apple');  -- 成功，因为被视为不同值

关键点：在utf8mb4_general_ci下，'apple'、'Apple'和'Ápple'被视为相同值，因此唯一索引会阻止插入；而在utf8mb4_bin下，它们被视为不同值。

3.3.2 普通索引场景

sql复制-- 在test1中添加普通索引
ALTER TABLE test1.test ADD INDEX idx_name (test_name);

-- 插入数据（成功）
INSERT INTO test1.test VALUES ('apple');  -- 成功，因为不是唯一约束

普通索引场景下，两种排序规则的行为相同，都能成功插入，只是查询时的匹配规则不同。

3.4 排序结果差异

sql复制-- 在test1中排序
SELECT * FROM test1.test ORDER BY test_name;

-- 在test2中排序
SELECT * FROM test2.test ORDER BY test_name;

排序结果：

utf8mb4_general_ci：排序基于Unicode权重，可能将所有变体视为相同
utf8mb4_bin：严格按二进制值排序，顺序可能是'Apple'、'apple'、'Ápple'

3.5 分组结果差异

sql复制-- 在test1中分组
SELECT test_name, COUNT(*) FROM test1.test GROUP BY test_name;

-- 在test2中分组
SELECT test_name, COUNT(*) FROM test2.test GROUP BY test_name;

分组结果：

utf8mb4_general_ci：可能将所有变体分到同一组
utf8mb4_bin：每个变体都会单独分组

4. 工作原理深度解析

4.1 utf8mb4_general_ci的工作原理

utf8mb4_general_ci采用基于权重的比较方式：

权重映射：每个字符被映射到一个权重值，忽略大小写和重音差异。例如：
- 'A'、'a'、'À'、'Á'等都映射到相同的权重值0x0041
- 这种映射关系存储在MySQL内部的权重表中
比较过程：
- 将字符串中的每个字符转换为对应的权重值
- 比较权重值序列而非原始字节
- 因此'Apple'、'apple'和'Ápple'会被视为相同
性能考虑：
- 需要查表转换权重值，性能略低于二进制比较
- 但比更复杂的utf8mb4_unicode_ci要快

4.2 utf8mb4_bin的工作原理

utf8mb4_bin采用直接的二进制比较：

编码比较：直接比较字符的UTF-8编码字节值
- 'A' = 65 (0x41)
- 'a' = 97 (0x61)
- 'Á' = 0xC3 0x81 (多字节字符)
比较过程：
- 逐字节比较字符串的二进制表示
- 完全匹配才认为相等
- 因此'Apple' ≠ 'apple' ≠ 'Ápple'
性能优势：
- 无需查表转换，直接比较字节
- 性能通常优于基于权重的比较

5. 实际应用场景建议

5.1 何时选择utf8mb4_general_ci

适合需要符合语言习惯的场景：

用户系统：用户名比较通常不区分大小写
内容搜索：用户搜索"cafe"应该能匹配到"Café"
多语言应用：需要正确处理各种语言的特殊字符
社交内容：标签、话题等通常不区分大小写

5.2 何时选择utf8mb4_bin

适合需要精确匹配的场景：

验证码系统：必须严格区分大小写
加密数据：加密后的字符串需要精确匹配
区分大小写的ID：如API密钥、令牌等
特定业务需求：如法律文档中的精确引用

5.3 混合使用场景

实际上，我们可以在同一个数据库中使用不同的排序规则：

sql复制CREATE TABLE users (
    username VARCHAR(50) COLLATE utf8mb4_general_ci,  -- 不区分大小写
    api_key VARCHAR(50) COLLATE utf8mb4_bin,          -- 区分大小写
    bio TEXT COLLATE utf8mb4_unicode_ci               -- 更精确的语言规则
);

6. 常见问题与解决方案

6.1 排序规则冲突问题

问题描述：当关联不同排序规则的表时可能出现错误：

code复制ERROR 1267 (HY000): Illegal mix of collations

解决方案：

统一使用相同的排序规则

在查询时显式转换：

sql复制SELECT * FROM table1 JOIN table2 
ON table1.field COLLATE utf8mb4_bin = table2.field

6.2 迁移时字符集问题

问题描述：从旧版MySQL迁移时，utf8可能不是真正的UTF-8。