MySQL表操作与高效查询优化实战

爱过河的小马锅

1. MySQL表操作基础与核心概念

MySQL作为关系型数据库的代表，表操作是每个开发者必须掌握的日常技能。我处理过上百个MySQL项目，发现80%的性能问题都源于不合理的表设计和低效查询。我们先从最基础的建表操作说起。

创建表时，字段类型的选择直接影响存储效率和查询性能。比如手机号字段，很多新手直接用VARCHAR(20)，其实用CHAR(11)更合适。因为国内手机号固定11位，CHAR类型对于固定长度字段有存储和查询优势。这是我的建表示例：

sql复制CREATE TABLE `user` (
  `id` INT UNSIGNED NOT NULL AUTO_INCREMENT,
  `username` VARCHAR(50) NOT NULL COMMENT '登录账号',
  `mobile` CHAR(11) NOT NULL COMMENT '手机号',
  `email` VARCHAR(100) DEFAULT NULL COMMENT '邮箱',
  `status` TINYINT NOT NULL DEFAULT 1 COMMENT '状态：1-正常 0-禁用',
  `created_at` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,
  `updated_at` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`),
  UNIQUE KEY `idx_mobile` (`mobile`),
  KEY `idx_status` (`status`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

注意：一定要指定字符集为utf8mb4，否则无法存储emoji等特殊字符。这是我踩过的坑。

表结构修改是另一个高频操作。增加字段时，大表要特别注意：

sql复制ALTER TABLE `user` 
ADD COLUMN `last_login_ip` VARCHAR(50) DEFAULT NULL COMMENT '最后登录IP',
ALGORITHM=INPLACE, LOCK=NONE;

使用ALGORITHM=INPLACE和LOCK=NONE可以避免锁表，这在生产环境特别重要。有次我在千万级用户表直接加字段，导致服务不可用30分钟，教训深刻。

2. 高效查询的黄金法则

2.1 索引的正确使用姿势

索引是把双刃剑。我见过太多项目因为索引滥用反而导致性能下降。核心原则是：

为WHERE、JOIN、ORDER BY的字段建索引
区分度低的字段（如性别）不要单独建索引
联合索引要遵循最左前缀原则

比如这个查询：

sql复制SELECT * FROM orders 
WHERE user_id = 10086 
AND status = 2 
ORDER BY create_time DESC;

最优索引应该是(user_id, status, create_time)，而不是单独建三个索引。实测百万数据量下，前者比后者快20倍。

2.2 EXPLAIN执行计划详解

EXPLAIN是查询优化的神器。关键要看这几列：

type：最好到range级别，避免ALL全表扫描
key：实际使用的索引
rows：预估扫描行数
Extra：特别注意Using filesort和Using temporary

这是我分析过的一个典型案例：

sql复制EXPLAIN SELECT u.* FROM user u 
LEFT JOIN order o ON u.id = o.user_id 
WHERE o.amount > 1000;

发现type是ALL，因为右表没有amount索引。加上索引后查询时间从2s降到50ms。

3. 高级查询技巧实战

3.1 分页查询优化

最常见的错误分页：

sql复制SELECT * FROM big_table LIMIT 1000000, 10;

这会先读取1000010条记录再丢弃前100万条。正确做法是用延迟关联：

sql复制SELECT t.* FROM big_table t
JOIN (SELECT id FROM big_table ORDER BY create_time LIMIT 1000000, 10) tmp
ON t.id = tmp.id;

实测千万级数据下，后者比前者快100倍以上。

3.2 统计查询的陷阱

统计活跃用户时，很多人这样写：

sql复制SELECT COUNT(*) FROM user WHERE last_login_time > '2023-01-01';

大表COUNT非常耗资源。如果允许近似值，可以：

sql复制EXPLAIN SELECT TABLE_ROWS 
FROM INFORMATION_SCHEMA.TABLES 
WHERE TABLE_NAME = 'user';

或者使用缓存计数。我在实际项目中用Redis维护计数，查询性能提升1000倍。

4. 生产环境避坑指南

4.1 字段变更的暗坑

修改字段类型可能导致数据截断或报错。有次我把VARCHAR(50)改成VARCHAR(20)，导致超长用户名被截断。安全做法是：

先检查现有数据长度

sql复制SELECT MAX(LENGTH(username)) FROM user;

使用MODIFY COLUMN谨慎操作

sql复制ALTER TABLE user 
MODIFY COLUMN username VARCHAR(100) NOT NULL,
ALGORITHM=INPLACE, LOCK=NONE;

4.2 大表删除数据的正确姿势

直接DELETE FROM big_table WHERE... 会锁表并写满binlog。应该：

分批删除

sql复制DELETE FROM big_table WHERE id < 10000 LIMIT 1000;

使用pt-archiver工具

bash复制pt-archiver --source h=localhost,D=test,t=big_table \
--purge --where 'id < 10000' --limit 1000 --commit-each

重建表（数据量很大时）

sql复制CREATE TABLE new_table LIKE big_table;
INSERT INTO new_table SELECT * FROM big_table WHERE id >= 10000;
RENAME TABLE big_table TO old_table, new_table TO big_table;

5. 复杂查询设计模式

5.1 层级数据查询

处理组织架构等树形数据时，有几种方案：

邻接表（传统方案）

sql复制SELECT t1.name AS lv1, t2.name as lv2, t3.name as lv3
FROM department t1
LEFT JOIN department t2 ON t2.parent_id = t1.id
LEFT JOIN department t3 ON t3.parent_id = t2.id
WHERE t1.parent_id IS NULL;

闭包表（推荐方案）

sql复制CREATE TABLE department_closure (
  ancestor INT NOT NULL,
  descendant INT NOT NULL,
  depth INT NOT NULL,
  PRIMARY KEY (ancestor, descendant)
);

-- 查询所有子部门
SELECT d.* FROM department d
JOIN department_closure c ON d.id = c.descendant
WHERE c.ancestor = 1 AND c.depth <= 3;

闭包表虽然需要额外维护，但查询效率极高，是我在大型OA系统中的首选方案。

5.2 时序数据处理

处理监控、日志等时序数据时，要注意：

按时间分区

sql复制CREATE TABLE metric_data (
  id BIGINT UNSIGNED NOT NULL AUTO_INCREMENT,
  metric_time DATETIME NOT NULL,
  value DOUBLE NOT NULL,
  PRIMARY KEY (id, metric_time)
) PARTITION BY RANGE (TO_DAYS(metric_time)) (
  PARTITION p202301 VALUES LESS THAN (TO_DAYS('2023-02-01')),
  PARTITION p202302 VALUES LESS THAN (TO_DAYS('2023-03-01'))
);

定期归档旧数据

sql复制ALTER TABLE metric_data 
REORGANIZE PARTITION p202301 INTO (
  PARTITION p202301_archive VALUES LESS THAN (TO_DAYS('2023-02-01')),
  PARTITION p202301 VALUES LESS THAN (MAXVALUE)
);

这种设计使我们的监控系统能高效处理10亿级数据点。