MyBatis批量插入性能优化实战指南-代码聚汇网

MyBatis批量插入性能优化实战指南

菩提风

1. 批量插入性能优化的必要性

在业务系统开发中，数据批量插入是一个常见但容易被忽视的性能瓶颈点。以用户行为日志收集系统为例，假设每天需要记录1000万条用户操作日志，如果采用单条插入的方式，系统将面临灾难性的性能问题。

单条插入的性能瓶颈主要体现在三个方面：

网络往返开销：每次插入都需要完成完整的"请求-响应"循环
SQL解析开销：数据库需要重复解析结构相同的SQL语句
事务提交开销：默认的自动提交模式下，每个插入操作都会触发一次事务提交

java复制// 典型的低效单条插入示例
public void insertUsers(List<User> users) {
    for (User user : users) {
        userMapper.insert(user);  // 每次都是独立的数据库交互
    }
}

在实际压力测试中，单条插入1万条记录可能需要45秒以上，而优化的批量插入方案可以将这个时间缩短到2秒以内。这种性能差异在数据量达到十万、百万级别时会更加明显，直接影响系统的吞吐量和响应时间。

2. foreach拼接插入方案解析

2.1 实现原理与代码示例

foreach拼接是MyBatis中最直观的批量插入实现方式，其核心思想是将多条INSERT语句合并为一条包含多个VALUES子句的SQL语句。这种方式利用了SQL标准支持的多值插入语法。

xml复制<!-- MyBatis Mapper XML配置 -->
<insert id="batchInsert" parameterType="java.util.List">
    INSERT INTO user (username, email, create_time)
    VALUES
    <foreach collection="list" item="item" separator=",">
        (#{item.username}, #{item.email}, #{item.createTime})
    </foreach>
</insert>

对应的Java调用代码非常简单：

java复制// 服务层调用
public void batchInsertUsers(List<User> users) {
    userMapper.batchInsert(users);
}

2.2 性能特点与潜在问题

foreach方案的性能表现呈现出明显的非线性特征：

数据量级	平均耗时	内存消耗	主要瓶颈
100条	50ms	低	网络延迟
1000条	300ms	中	SQL解析
5000条	2500ms	高	内存分配
10000条	可能失败	极高	包大小限制

主要问题包括：

SQL长度限制：MySQL默认的max_allowed_packet为4MB（可调整到64MB）
内存压力：大列表会导致OOM风险，特别是在并发场景下
数据库解析开销：超长SQL的解析时间呈指数增长

实际案例：某电商系统在促销期间使用未分批的foreach插入，导致数据库连接被占满，整个下单流程瘫痪2小时。

2.3 优化实践：分批处理策略

针对上述问题，最有效的优化方式是实现分批处理：

java复制// 改进后的分批处理实现
public void safeBatchInsert(List<User> users, int batchSize) {
    for (int i = 0; i < users.size(); i += batchSize) {
        int end = Math.min(i + batchSize, users.size());
        List<User> subList = users.subList(i, end);
        userMapper.batchInsert(subList);
        
        // 每批完成后强制GC（可选）
        if (i % (batchSize * 10) == 0) {
            System.gc();
        }
    }
}

分批大小的选择需要考虑以下因素：

单条记录的平均大小
数据库的max_allowed_packet配置
应用服务器的可用内存

经验值参考表：

记录字段数	建议分批大小
≤5个	1000-2000
5-10个	500-1000
10-20个	200-500
包含BLOB	50-100

3. SqlSession批量模式深度剖析

3.1 底层机制与JDBC批处理

SqlSession的BATCH模式本质上是利用了JDBC的批处理API。与foreach拼接不同，这种方式不会生成庞大的SQL语句，而是通过PreparedStatement的批处理机制实现高效插入。

关键组件工作原理：

PreparedStatement缓存：SQL模板只编译一次
参数绑定：批量添加参数到批处理队列
网络传输：使用紧凑的二进制格式传输批量数据

java复制// JDBC原生批处理示例
Connection conn = dataSource.getConnection();
conn.setAutoCommit(false);  // 关闭自动提交

PreparedStatement ps = conn.prepareStatement(
    "INSERT INTO user (username, email) VALUES (?, ?)");

for (User user : users) {
    ps.setString(1, user.getUsername());
    ps.setString(2, user.getEmail());
    ps.addBatch();  // 添加到批处理队列
    
    if (i % 500 == 0) {
        ps.executeBatch();  // 执行批次
        conn.commit();      // 提交事务
    }
}

ps.executeBatch();  // 执行剩余记录
conn.commit();      // 最终提交

3.2 MyBatis集成实现方式

在MyBatis中，可以通过两种方式启用批处理模式：

方式一：编程式控制

java复制public void batchInsertWithSession(List<User> users) {
    SqlSession session = sqlSessionFactory.openSession(ExecutorType.BATCH);
    try {
        UserMapper mapper = session.getMapper(UserMapper.class);
        for (int i = 0; i < users.size(); i++) {
            mapper.insert(users.get(i));
            
            // 每1000条提交一次
            if (i > 0 && i % 1000 == 0) {
                session.commit();
                session.clearCache();  // 防止内存溢出
            }
        }
        session.commit();  // 提交剩余记录
    } finally {
        session.close();
    }
}

方式二：Spring事务集成

java复制@Transactional
public void batchInsertInTransaction(List<User> users) {
    // 需要先设置执行器类型为BATCH
    ((DefaultSqlSession)sqlSession).getConfiguration()
        .setDefaultExecutorType(ExecutorType.BATCH);
    
    for (User user : users) {
        userMapper.insert(user);
    }
}

3.3 关键配置与性能调优

必须配置的MySQL参数：

code复制rewriteBatchedStatements=true

这个参数的作用是将：

sql复制INSERT INTO t VALUES(1,1);
INSERT INTO t VALUES(2,2);
INSERT INTO t VALUES(3,3);

重写为：

sql复制INSERT INTO t VALUES(1,1),(2,2),(3,3);

其他重要参数：

useServerPrepStmts=true：启用服务器端预处理语句
cachePrepStmts=true：缓存预处理语句
prepStmtCacheSize=250：预处理语句缓存大小
prepStmtCacheSqlLimit=2048：缓存SQL长度限制

事务控制建议：

合理设置批处理大小（通常500-2000）
大事务会占用大量undo日志空间，需平衡性能与风险
考虑使用@Transactional的隔离级别配置

4. 原生JDBC批量插入方案

4.1 实现方式对比

虽然MyBatis的批处理模式已经足够优秀，但在某些极端场景下，直接使用JDBC可能获得更好的性能：

特性	MyBatis批处理	原生JDBC批处理
开发效率	高	低
灵活性	中	高
性能	优	极优
内存控制	中	精细
异常处理	完善	需手动实现

4.2 最佳实践示例

java复制public void jdbcBatchInsert(List<User> users) throws SQLException {
    Connection conn = null;
    PreparedStatement ps = null;
    
    try {
        conn = dataSource.getConnection();
        conn.setAutoCommit(false);
        
        ps = conn.prepareStatement(
            "INSERT INTO user (username, email, age) VALUES (?, ?, ?)");
        
        for (int i = 0; i < users.size(); i++) {
            User user = users.get(i);
            ps.setString(1, user.getUsername());
            ps.setString(2, user.getEmail());
            ps.setInt(3, user.getAge());
            ps.addBatch();
            
            // 每500条执行一次
            if (i > 0 && i % 500 == 0) {
                ps.executeBatch();
                conn.commit();
            }
        }
        
        ps.executeBatch();
        conn.commit();
    } catch (SQLException e) {
        if (conn != null) conn.rollback();
        throw e;
    } finally {
        if (ps != null) ps.close();
        if (conn != null) conn.close();
    }
}

4.3 性能极限优化技巧

参数化调优：

java复制// 设置fetchSize优化大量数据插入
ps.setFetchSize(1000);

// 使用Statement.RETURN_GENERATED_KEYS
ps = conn.prepareStatement(sql, Statement.RETURN_GENERATED_KEYS);

批量加载技巧：

java复制// 使用LOAD DATA INFILE（最快方案）
String loadDataSql = "LOAD DATA LOCAL INFILE '" + csvFile + 
    "' INTO TABLE user FIELDS TERMINATED BY ','";

连接池配置：

yaml复制# HikariCP配置示例
spring:
  datasource:
    hikari:
      maximum-pool-size: 20
      connection-timeout: 30000
      max-lifetime: 1800000

5. 综合性能对比与选型指南

5.1 实测数据对比

基于MySQL 8.0的基准测试结果（单位：ms）：

方案	1万条	10万条	100万条	内存占用
单条插入	45000	超时	不可行	低
foreach(不分批)	1200	失败	失败	极高
foreach(分批1000)	800	7500	75000	中
BATCH(默认)	2500	24000	240000	中
BATCH(rewrite=true)	350	1800	16500	中
JDBC批处理	320	1700	15500	中
LOAD DATA	150	800	6500	低

5.2 方案选型决策树

数据量 < 1000条：
- 简单场景：foreach拼接
- 需要获取主键：BATCH模式
1000 ≤ 数据量 < 10万：
- 标准选择：BATCH模式 + rewriteBatchedStatements
- MyBatis-Plus项目：saveBatch方法
数据量 ≥ 10万：
- 性能优先：JDBC批处理
- 极大数据量：LOAD DATA INFILE
- 需要事务控制：分批BATCH模式
特殊需求场景：
- 需要返回主键：BATCH模式
- 包含BLOB字段：小批次BATCH
- 异构数据插入：foreach动态SQL

5.3 生产环境注意事项

监控指标：
- 数据库服务器CPU和内存使用率
- 慢查询日志中的大事务
- 应用服务器的GC日志

失败处理：

java复制// 实现重试机制
@Retryable(maxAttempts=3, backoff=@Backoff(delay=1000))
public void batchInsertWithRetry(List<User> users) {
    // 批处理逻辑
}

数据库优化：

sql复制-- 临时调大日志文件
SET GLOBAL innodb_log_file_size = 256M;

-- 调整缓冲池
SET GLOBAL innodb_buffer_pool_size = 2G;

架构层面考虑：
- 对于超大规模数据导入，考虑使用消息队列削峰
- 实现断点续传机制
- 采用读写分离架构减轻主库压力

在实际项目中，我们曾经通过将foreach方案改造为BATCH模式，使一个每日百万级数据导入作业的执行时间从4小时缩短到15分钟。关键在于理解每种方案的适用场景和调优方法，而不是简单地套用代码。