MySQL ON DUPLICATE KEY UPDATE原理与应用详解

千纸鹤Amanda

1. MySQL中ON DUPLICATE KEY UPDATE的深度解析

作为一名长期与MySQL打交道的开发者，我经常遇到需要"存在即更新，不存在则插入"的场景。这种需求在用户数据同步、统计计数、配置管理等业务中尤为常见。MySQL提供的ON DUPLICATE KEY UPDATE语法完美解决了这个问题，但其中有不少细节和坑需要注意。

1.1 核心机制与工作原理

ON DUPLICATE KEY UPDATE是MySQL对标准SQL的扩展语法，它的核心逻辑可以分为三个步骤：

尝试插入：首先执行常规的INSERT操作
冲突检测：如果插入导致主键(Primary Key)或唯一键(Unique Key)冲突
执行更新：转而执行UPDATE操作，只更新指定的列

这个过程中有几个关键技术细节值得注意：

冲突判断依据：MySQL会检查所有主键和唯一键约束，不仅仅是主键
原子性保证：整个操作是原子的，不会出现插入失败但更新成功的情况
自增ID处理：即使执行的是更新操作，自增ID也会消耗（后面会详细解释）

提示：在8.0.19版本后，MySQL还支持VALUES()函数的替代语法，使用AS alias形式，如UPDATE age = new_values.age，这在复杂查询中可读性更好。

1.2 与REPLACE INTO的区别

很多开发者会混淆ON DUPLICATE KEY UPDATE和REPLACE INTO，两者虽然都能实现"存在即更新"的效果，但有本质区别：

特性	ON DUPLICATE KEY UPDATE	REPLACE INTO
执行逻辑	先尝试INSERT，冲突时UPDATE	先DELETE再INSERT
受影响行数	1(插入)或2(更新)	1(插入)或大于1(删除后插入)
自增ID	只增加不重用	可能重用已删除的ID
触发器	只触发INSERT或UPDATE	触发DELETE和INSERT
性能	更高	较低

实际开发中，除非确实需要先删除再插入的逻辑，否则更推荐使用ON DUPLICATE KEY UPDATE。

2. 实战应用与案例解析

2.1 基础使用模式

让我们通过一个用户表示例来演示基本用法。首先创建测试表：

sql复制CREATE TABLE users (
    id INT AUTO_INCREMENT PRIMARY KEY,
    username VARCHAR(50) UNIQUE NOT NULL,
    login_count INT DEFAULT 0,
    last_login DATETIME,
    profile_data JSON
) ENGINE=InnoDB;

场景1：根据主键更新

sql复制INSERT INTO users (id, username, login_count, last_login)
VALUES (1, 'john_doe', 1, NOW())
ON DUPLICATE KEY UPDATE
    login_count = login_count + 1,
    last_login = NOW();

这个语句会在id=1存在时增加登录次数并更新最后登录时间，不存在时创建新用户。

场景2：根据唯一键更新

sql复制INSERT INTO users (username, login_count, last_login)
VALUES ('jane_doe', 1, NOW())
ON DUPLICATE KEY UPDATE
    login_count = login_count + VALUES(login_count),
    last_login = VALUES(last_login);

这里使用了VALUES()函数引用INSERT部分的值，使SQL更加清晰。

2.2 批量操作技巧

ON DUPLICATE KEY UPDATE支持批量操作，这在数据同步场景非常有用：

sql复制INSERT INTO users (username, login_count, last_login)
VALUES 
    ('user1', 1, NOW()),
    ('user2', 1, NOW()),
    ('user3', 1, NOW())
ON DUPLICATE KEY UPDATE
    login_count = VALUES(login_count),
    last_login = VALUES(last_login);

注意：批量操作时，所有行共享同一个UPDATE语句，无法为不同行设置不同的更新逻辑。

2.3 条件更新策略

有时我们需要根据条件决定是否更新某些字段，这时可以结合CASE WHEN或IF函数：

sql复制INSERT INTO users (username, login_count, last_login, profile_data)
VALUES ('test_user', 1, NOW(), '{"premium": true}')
ON DUPLICATE KEY UPDATE
    login_count = IF(VALUES(login_count) > 100, VALUES(login_count), login_count),
    profile_data = CASE 
        WHEN profile_data->>'$.premium' = 'true' THEN profile_data
        ELSE VALUES(profile_data)
    END;

这个例子展示了：

只有当新值大于100时才更新login_count
只有非高级用户才更新profile_data

3. 高级特性与性能优化

3.1 与MyBatis的集成实践

在Java项目中使用MyBatis时，ON DUPLICATE KEY UPDATE有两种主要写法：

写法1：使用VALUES()函数（推荐）

xml复制<insert id="upsertUser">
    INSERT INTO users (username, login_count, last_login)
    VALUES (#{username}, #{loginCount}, #{lastLogin})
    ON DUPLICATE KEY UPDATE
        login_count = VALUES(login_count),
        last_login = VALUES(last_login)
</insert>

这种写法支持批量操作，且字段名自动映射。

写法2：直接引用参数（灵活性高）

xml复制<insert id="upsertUser">
    INSERT INTO users (username, login_count, last_login)
    VALUES (#{username}, #{loginCount}, #{lastLogin})
    ON DUPLICATE KEY UPDATE
        login_count = #{loginCount},
        last_login = #{lastLogin}
</insert>

这种写法可以在更新时使用不同的逻辑，如：

xml复制ON DUPLICATE KEY UPDATE
    login_count = login_count + #{increment},
    last_login = #{lastLogin}

3.2 性能优化建议

批量操作：尽量使用批量插入更新，减少网络往返
索引设计：确保冲突检测的字段有合适的索引
减少更新列：只更新必要的列，避免不必要的数据修改
事务控制：大批量操作时适当分批提交事务

实测对比（10000条记录）：

方式	耗时(ms)	锁持有时间
单条INSERT+SELECT	5200	长
ON DUPLICATE KEY	1200	短
批量ON DUPLICATE	350	很短

4. 常见问题与解决方案

4.1 自增ID不连续问题

这是ON DUPLICATE KEY UPDATE最常见的问题之一。现象是即使执行的是更新操作，自增ID也会递增。这是因为：

InnoDB在分配自增ID时无法预知操作最终是INSERT还是UPDATE
默认的innodb_autoinc_lock_mode=1模式下，自增ID分配是批量的

解决方案：

如果必须保证ID连续，可以考虑：
- 使用innodb_autoinc_lock_mode=0（性能影响大）
- 业务上不依赖ID的连续性
- 使用其他唯一标识字段

4.2 死锁风险与规避

ON DUPLICATE KEY UPDATE确实可能引发死锁，典型场景是：

事务A和事务B同时插入相同唯一键
都检测到冲突，尝试获取共享锁(S锁)
都准备升级为排他锁(X锁)时形成死锁

规避策略：

降低并发：对相同键的操作串行化
短事务：尽快提交事务
重试机制：捕获死锁异常并重试
应用层锁：在应用层对相同键加锁

4.3 大小写敏感问题

如文中提到的，唯一键的大小写敏感性会影响冲突判断：

sql复制-- 大小写不敏感的排序规则
CREATE TABLE case_insensitive (
    id INT PRIMARY KEY AUTO_INCREMENT,
    name VARCHAR(20) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci UNIQUE
);

-- 大小写敏感的排序规则  
CREATE TABLE case_sensitive (
    id INT PRIMARY KEY AUTO_INCREMENT,
    name VARCHAR(20) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin UNIQUE
);

在case_insensitive表中，'John'和'JOHN'被视为冲突；而在case_sensitive表中则不会。

5. 最佳实践与经验总结

经过多年使用，我总结了以下ON DUPLICATE KEY UPDATE的最佳实践：

明确冲突判断依据：清楚知道是根据主键还是唯一键判断冲突
最小化更新列：只更新必要的列，减少锁竞争和日志量
批量操作优化：大批量操作时每批1000-5000条为宜
监控自增ID：如果ID接近上限，提前调整数据类型
备选方案：对于高并发场景，考虑使用INSERT IGNORE + 后续UPDATE

一个典型的生产环境示例：

sql复制-- 用户行为数据批量更新
INSERT INTO user_behavior (user_id, item_id, action_type, count, update_time)
VALUES 
    (1001, 2001, 'click', 1, NOW()),
    (1001, 2002, 'view', 1, NOW()),
    (1002, 2001, 'purchase', 1, NOW())
ON DUPLICATE KEY UPDATE
    count = IF(action_type = VALUES(action_type), count + VALUES(count), VALUES(count)),
    update_time = NOW();